原因:查看asyncio ,aiohttp 和lxml配合的速度

# coding=utf-8
import asyncio
import logging
import time
from aiohttp import ClientSession
from lxml import etreelogging.basicConfig(level = logging.INFO,format = "%(asctime)s [*] %(message)s"
)
URL = "https://www.fabiaoqing.com/biaoqing/lists/page/{}.html"# 提取图片标题,链接
def parse(source_):try:response = etree.HTML(source_)tagbqppdiv = response.xpath('//div[@class="tagbqppdiv"]/a')for index, img in enumerate(tagbqppdiv):args = (int(index + 1), img.xpath('@title')[0], img.xpath('img/@data-original')[0])logging.info('第 %d 张  标题:%r  链接:%r' % args)except Exception as e:print('解析详情页出错!')pass# 获取网页源码
async def get_source(url_):try:async with ClientSession( ) as session:async with session.get(url_) as response:source = await response.read( )parse(source)except asyncio.CancelledError:raiseasync def main( ):now = time.time( )tasks = [asyncio.ensure_future(get_source(URL.format(i)))for i in range(1, 201)]# 第一种运行方式-----------------------------------dones, pendings = await asyncio.wait(tasks)# 已完成的协程-------------------------------------# for done in dones:#     logging.info(f"已完成的协程:{done.result( )}")# 超时未完成的协程---------------------------------# for pending in pendings:#     logging.info(f"超时未完成的协程  :{pending}")#     pending.cancel( )logging.info(f"总用时:{time.time( ) - now}")if __name__ == "__main__":event_loop = asyncio.get_event_loop( )# ------------------------------------------------try:# 用这个协程启动循环,协程返回时这个方法将停止循环。event_loop.run_until_complete(main( ))except KeyboardInterrupt:for task in asyncio.Task.all_tasks( ):print(task.cancel( ))event_loop.stop( )finally:event_loop.close( )

输出:最后附上一张图片

2019-10-13 22:06:51,243 [*] 第 23 张  标题:'你这个臭居居(臭猪猪)'  链接:'http://wx1.sinaimg.cn/bmiddle/006i487Uly1fk9mhg5q4yj30b409qgm1.jpg'
2019-10-13 22:06:51,243 [*] 第 24 张  标题:'撩骚的猪'  链接:'http://wx4.sinaimg.cn/bmiddle/814268e3ly1fl67k7p8zaj20hs0dldj8.jpg'
2019-10-13 22:06:51,243 [*] 第 25 张  标题:'摇头赌气'  链接:'http://wx3.sinaimg.cn/bmiddle/ceeb653ely1fl9ggif8nwg203c02m0y7.gif'
2019-10-13 22:06:51,243 [*] 第 26 张  标题:'各位土豪赏点钱帮我买条秋裤吧'  链接:'http://wx1.sinaimg.cn/bmiddle/006oOWahly1fl3pub76j9j30b40b4mxq.jpg'
2019-10-13 22:06:51,243 [*] 第 27 张  标题:'卖鸡巴为生的贱男人'  链接:'http://ww3.sinaimg.cn/bmiddle/9150e4e5ly1fkycdb18ehj20c80dagma.jpg'
2019-10-13 22:06:51,243 [*] 第 28 张  标题:'80 cm'  链接:'http://ww1.sinaimg.cn/bmiddle/9150e4e5ly1fkycgod22ij203c02bdfm.jpg'
2019-10-13 22:06:51,244 [*] 第 29 张  标题:'信不信老子冲过去就是扇你B脸'  链接:'http://ww1.sinaimg.cn/bmiddle/9150e4e5ly1fkvwyj7nq2j205205ijr8.jpg'
2019-10-13 22:06:51,244 [*] 第 30 张  标题:'城管执法,推着你的三轮儿赶紧滚'  链接:'http://ww2.sinaimg.cn/bmiddle/9150e4e5ly1fkvwz2f341j204l05iq2r.jpg'
2019-10-13 22:06:51,244 [*] 第 31 张  标题:'拿烟的手,微微颤抖'  链接:'http://ww3.sinaimg.cn/bmiddle/9150e4e5ly1fkr9qasvmhg206o06yaag.gif'
2019-10-13 22:06:51,244 [*] 第 32 张  标题:'别睡了,快醒醒!'  链接:'http://wx2.sinaimg.cn/bmiddle/ab4cb34aly1fku8rhb75aj20h40c8jt8.jpg'
2019-10-13 22:06:51,244 [*] 第 33 张  标题:'我們的感情,回不去了'  链接:'http://ww1.sinaimg.cn/bmiddle/9150e4e5ly1fktmoy76g6j205l06yt8q.jpg'
2019-10-13 22:06:51,244 [*] 第 34 张  标题:'嗨,三秒小鸡巴'  链接:'http://ww2.sinaimg.cn/bmiddle/9150e4e5ly1fkr9n7o0gkj2046025743.jpg'
2019-10-13 22:06:51,244 [*] 第 35 张  标题:'别说了我同意睡你'  链接:'http://ww2.sinaimg.cn/bmiddle/9150e4e5ly1fkr9o8zyqvj205a05a3ym.jpg'
2019-10-13 22:06:51,244 [*] 第 36 张  标题:'尖叫声!!'  链接:'http://ww1.sinaimg.cn/bmiddle/9150e4e5ly1fkr98rjfacj208s07gaa3.jpg'
2019-10-13 22:06:51,245 [*] 第 37 张  标题:'你是想气死我这个小女孩吗(小刚几)'  链接:'http://wx4.sinaimg.cn/bmiddle/006APoFYly1fkqwejv8sxj30i20i2dh5.jpg'
2019-10-13 22:06:51,245 [*] 第 38 张  标题:'么么哒'  链接:'http://ww4.sinaimg.cn/bmiddle/9150e4e5ly1fkonbjfm41j203c02wwe9.jpg'
2019-10-13 22:06:51,245 [*] 第 39 张  标题:'你能亲我一口吗?最好伸舌头'  链接:'http://wx2.sinaimg.cn/bmiddle/9e31678cgy1fkoy8ah133j20hs0fgdgg.jpg'
2019-10-13 22:06:51,246 [*] 第 40 张  标题:'让我干一炮(抱腿)'  链接:'http://ww2.sinaimg.cn/bmiddle/9150e4e5ly1fknuxz6typj20hs0dnafn.jpg'
2019-10-13 22:06:51,248 [*] 第 41 张  标题:'它们说只要我喝的够多,寂寞就侵蚀不了我。猫咪坐在墙角喝酒抽烟'  链接:'http://wx2.sinaimg.cn/bmiddle/9e31678cgy1fkb2pvs7q9j20k00k0q4r.jpg'
2019-10-13 22:06:51,248 [*] 第 42 张  标题:'你要的红包来了'  链接:'http://ww3.sinaimg.cn/bmiddle/6af89bc8gw1f8qaarg345j205i05iq2r.jpg'
2019-10-13 22:06:51,248 [*] 第 43 张  标题:'看你妈,再看单杀你'  链接:'http://wx4.sinaimg.cn/bmiddle/005wAjLPly1fl7k2mu6esj30qo0qo16c.jpg'
2019-10-13 22:06:51,248 [*] 第 44 张  标题:'最近有谣言说我喜欢你,我要澄清一下,这不是谣言(小猪佩奇)'  链接:'http://wx4.sinaimg.cn/bmiddle/814268e3ly1fl67kan9l4j20j60j6q4i.jpg'
2019-10-13 22:06:51,249 [*] 第 45 张  标题:'哼,傻逼网友,发的仕么鸡巴'  链接:'http://ww4.sinaimg.cn/bmiddle/9150e4e5ly1fkvwypvycuj205e05djr9.jpg'2019-10-13 22:06:51,268 [*] 总用时:14.914090394973755

asyncio aiohttp lxml 网页爬虫实例相关推荐

  1. python爬取豆瓣电影排行前250获取电影名称和网络链接[静态网页]————爬虫实例(1)

    目录 1.算法原理: 2.程序流程: 3.程序代码: 4.运行结果(部分结果展示): 5.结果分析: 1.算法原理: (1)利用import命令导入模块或者导入模块中的对象: ①利用requests库 ...

  2. 使用 requests+lxml 库的 Python 爬虫实例(以爬取网页连载小说《撒野》为例)

    需求目标 介绍使用 requests 库与 lxml 库进行简单的网页数据爬取普通框架与爬虫实例,本文以爬取网页连载小说<撒野>为例~ 当然有很多小说基本都能找到现成的 .txt 或者 . ...

  3. python链家网高并发异步爬虫asyncio+aiohttp+aiomysql异步存入数据

    python链家网二手房异步IO爬虫,使用asyncio.aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫,刚入门时会使用requests.urllib这些同步的库进行单线 ...

  4. aiohttp保存MySQL_python链家网高并发异步爬虫asyncio+aiohttp+aiomysql异步存入数据

    python链家网二手房异步IO爬虫,使用asyncio.aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫,刚入门时会使用requests.urllib这些同步的库进行单线 ...

  5. 前端调用mysql异步_python链家网高并发异步爬虫asyncio+aiohttp+aiomysql异步存入数据...

    python链家网二手房异步IO爬虫,使用asyncio.aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫,刚入门时会使用requests.urllib这些同步的库进行单线 ...

  6. aiohttp mysql_python异步爬虫asyncio+aiohttp+aiomysql异步存入数据

    异步IO爬虫,使用asyncio.aiohttp和aiomysql 很多小伙伴初学python时都会学习到爬虫,刚入门时会使用requests.urllib这些同步的库进行单线程爬虫,速度是比较慢的, ...

  7. asyncio+aiohttp异步爬虫

    概念 进程:进程是一个具有独立功能的程序关于某个数据集合的一次运行活动.进程是操作系统动态执行的基本单元. 线程:一个进程中包含若干线程,当然至少有一个线程,线程可以利用进程所拥有的资源.线程是独立运 ...

  8. python爬虫 asyncio aiohttp aiofiles 单线程多任务异步协程爬取图片

    python爬虫 asyncio aiohttp aiofiles 多任务异步协程爬取图片 main.py """=== coding: UTF8 ==="&q ...

  9. python爬取小说写入txt_燎原博客—python爬取网络小说存储为TXT的网页爬虫源代码实例...

    python是一门优秀的计算机编程语言,两年前曾因为动过自动化交易的念头而关注过它.前几天在微信上点了个python教学的广告,听了两堂课,所以现在又热心了起来,照葫芦画瓢写了一段简单的网络爬虫代码, ...

最新文章

  1. [书目20130216]深入浅出WPF
  2. python写一个类方法_Python基础|类方法的强制重写与禁止重写
  3. Gradle在IDEA中创建web项目
  4. 关于使用fastjson统一序列化响应格式。
  5. 蔡砚刚:uAVS3对标x265 veryslow将节省30%码率
  6. jax-rs jax-ws_Google App Engine JAX-RS REST服务
  7. 还有那个bspider不知道哪里的飞鸽传书
  8. Javascript第二章break和continue、二重循环及for和while的区别第五课
  9. 10个高效的摸鱼神器,你错过几个?
  10. Androidstudio加载工程很慢解决方案
  11. 国内开源镜像站点汇总
  12. 电力网络安全监测装置_10月 长沙 电力监控系统安全防护技术研修班
  13. 贪心科技NLP实习面试
  14. SpringBoot整合Memcached缓存
  15. [bowen干货-5分钟算法系列]简洁不废话的排序算法-直接选择排序
  16. 使用梯度上升法求解 PCA 问题
  17. python拼接、剪辑视频
  18. 目标检测模型——One stage(YOLO v5的模型解析及应用)
  19. 【干货长文】诺亚财富解读市场信息心理学
  20. java 正则拼音_匹配中文普通话汉字拼音正则表达式

热门文章

  1. 基于Spring Boot的在线商城网站
  2. 让你的iriver更动听
  3. Java调用Https接口:fatal, handshake_failure问题记录
  4. Linux运行时I/O设备的电源管理框架【转】
  5. 青海省公务员考试报名流程及照片要求审核处理方法
  6. 汇编课设:实现身份证号验证功能并输出上面所给的信息
  7. mimikatz - Golden Ticket
  8. BGP选路规则记忆技巧
  9. WAVECOM Q39
  10. 应用概率统计(陈魁)第十章(方差分析)部分课后答案