前几天和朋友微信吹牛,这年头吹牛光发文字,根本解决不了问题,无法让他感觉到你此时的情绪波动,奈何自己平常不怎么注意盗图,导致自己在斗图这一环节败下阵来。当时那是一个气呀,我堂堂八尺男儿,怎么能被这样嘲讽,不能忍,我大鱼人今天要教他做大人!!!

想着确实好久没有写爬虫,之前在学习的时候,线程的消费者和生产者队列也该拿出来实践实践了。

逻辑梳理

使用queue来做队列,生产者调用来个queue,一个url_queue,一个img_queue。url_queue主要用来存储网站的初始链接,请求后获取表情包具体的url,再将表情包url传给img_queue并且下载到本地。生产者和消费者的逻辑就搭建起来了,每个类各调用5个线程来采集图片。具体的代码如下,没有什么难度。

import time
import queue
import random
import requests
import threading
from lxml import etree
from fake_useragent import UserAgent
import os
ua = UserAgent(verify_ssl=False)class CollectImage(threading.Thread):def __init__(self,url_queue,img_queue):super(CollectImage, self).__init__()self.url_queue = url_queueself.img_queue = img_queueself.headers = {"referer": "https://www.doutula.com/photo/list/?page=2","upgrade-insecure-requests": "1","user-agent": ua.random,"cookie": "__cfduid=df6cea198a4b5c7aa4ec1435fd4dfb20b1579672813; _ga=GA1.2.375526924.1579672985; _gid=GA1.2.833521468.1579672985; UM_distinctid=16fcbd8df0b513-033e078ae44a09-3f385c06-ff000-16fcbd8df1187; CNZZDATA1256911977=335321636-1579670964-%7C1579670964; _agep=1579672988; _agfp=22be48d2d46c1d3a00053b9d658f6457; _agtk=1cbe52183be64e8a3441b05f0d7a2049; XSRF-TOKEN=eyJpdiI6Im9mUGlQUnpzSE9ob1U4MEJybFU0QXc9PSIsInZhbHVlIjoiWmtwTVM3KzdJbDhNaW5rS3Y5TGNJb1k3dnJBWmd1YnlhQXc0eWxzdmQrK0pvclpWS29zdG40eW5tNzhncVNlSyIsIm1hYyI6IjU2ODZiZDk1MjZlZjU1ZWU1NTQyZjIwZDY0ZmY3YWNlODYzNDM2OWRhMGJmZmZlMmIwYzk3ZjQwMTJiMGY0MmQifQ%3D%3D; doutula_session=eyJpdiI6ImtLcGpTUHdsVlRCZXAyME5PeWxBbUE9PSIsInZhbHVlIjoiRzNzbVdiXC9CbWR5UUNvTFNcL1hcLzFkU2htemhtbGplMVY4OVFabEhtUW5NMHAyXC9Lb0NLS1R3K0dzMGozSHY4dFwvIiwibWFjIjoiZDgzYjFkNTU3Yjk5Y2Q3MzdmZDk0MTNiODZjNjBhNTIwZTgwMGVkOTVhN2NjMTg5OWNiMjFmOWZmOGE4NTA5YyJ9; _gat=1"}def run(self):# 当url_queue为空是,循环停止while not self.url_queue.empty():url = self.url_queue.get()self.parse_url(url)self.url_queue.task_done()def parse_url(self,url):req = requests.get(url=url,headers=self.headers)html = etree.HTML(req.text)a_list = html.xpath('//div[@class="page-content text-center"]//img')for a in a_list:img_url = "".join(a.xpath('./@data-original')).strip()if img_url:# 给下载img_queue提供下载地址self.img_queue.put(img_url)class DownloadImg(threading.Thread):def __init__(self,img_queue):super(DownloadImg,self).__init__()self.img_queue = img_queueself.headers= {"Accept":"text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3","Accept-Encoding":"gzip, deflate","Accept-Language":"zh,en-US;q=0.9,en;q=0.8,zh-CN;q=0.7,en-GB;q=0.6","Cache-Control":"no-cache","Connection":"keep-alive","Host":"ww2.sinaimg.cn","Pragma":"no-cache","Upgrade-Insecure-Requests":"1","User-Agent": ua.random}def run(self):if os.path.exists("./IMAGES"):passelse:os.makedirs('./IMAGES')# 当img_queue队列为空,停止循环while not self.img_queue.empty():img_url = self.img_queue.get()self.download_url(img_url)self.img_queue.task_done()def download_url(self,url):# 下载到本地filename = url.split('/')[-1]print("正在下载--------", filename)with open("IMAGES/" + filename, 'wb') as f:f.write(requests.get(url, headers=self.headers).content)if __name__ == '__main__':start_time = time.time()url_queue = queue.Queue()img_queue = queue.Queue()for page in range(1, 11):url =  'https://www.doutula.com/photo/list/?page={0}'.format(str(page))url_queue.put(url)# 开启5个请求连接线程for i in range(5):t = CollectImage(url_queue, img_queue)t.start()t.join()# 开启5个下载连接线程for i in range(5):t = DownloadImg(img_queue)t.start()t.join()print('一共需要%s' % (time.time()-start_time))

上面采集了10页的表情包图片,一共用了31秒左右。


哈哈哈,以上就是全部的采集流程了,以后谁敢和我斗图,我就是一记重锤,直接K.O!!!
欢迎访问个人博客

多线程采集表情包,下一届斗图王者属于你相关推荐

  1. python表情包多样化图形化聊天室_Python还有这功能:自动生成表情包,从此斗图无敌手!...

    原标题:Python还有这功能:自动生成表情包,从此斗图无敌手!

  2. Python自动生成表情包,从此斗图无敌手!

    作为一个数据分析师,应该信奉一句话--"一图胜千言".不过这里要说的并不是数据可视化,而是一款全民向的产品形态--表情包!!!! 表情包不仅仅是一种符号,更是一种文化,是促进社交乃 ...

  3. Python | 自动生成表情包,从此斗图无敌手!

    来源:CSDN ID:CSDnews 作为一个数据分析师,应该信奉一句话--"一图胜千言".不过这里要说的并不是数据可视化,而是一款全民向的产品形态--表情包!!!! 表情包不仅仅 ...

  4. Python多线程爬虫教你如何快速下载表情包,告别斗图斗不赢的烦恼!

    前言 在QQ斗图中,为什么有些人总有斗不完的图,今天,这里有了这个斗图小程序,终于可以告别斗图斗不赢的痛了. 文章目录 1.完成这个小程序需要导入的模块 2.了解两个HTTP状态码 3.怎样实现 4. ...

  5. Python爬取20w+表情包,微信斗图谁怕谁!

    源 / python教程       文 / 小雨 有一次想要斗图 就在网上搜索表情包 然后发现了一个表情巨多的网站 不小心动起了邪念 产生了兴趣 那就 把它们存下来吧 用 requests 请求了一 ...

  6. python多线程爬表情包,斗图斗够瘾~

    前言 嗨喽!大家好,这里是魔王. 什么?群里又在斗图 (+_+)? 别动让我来(>人<:) 教你一招爬取海量表情包图片, 从此告别图慌 !!! 课 题:python爬取海量表情包 课程亮点 ...

  7. 一起学python表情包_真香警告!多线程分类表情包爬取,一起斗图叭(*^▽^*)~~~

    :点击上方[Python爬虫数据分析挖掘]→右上角[...]→[设为星标⭐] 多线程爬取表情包 有一个网站,叫做"斗图啦",网址是:https://www.doutula.com/ ...

  8. java斗图表情_Java爬取斗图网站的所有表情包

    跟朋友聊天总会用到大量表情包,有些人甚至专门收集各种各样的表情包,看看谁能打败谁.今天我就用java爬取了一个斗图网站上的所有表情包,用来充实自己的表情包库.代码逻辑有可能并不完美,哈哈,也花了我几个 ...

  9. java斗图表情_java程序员斗图表情包 为何总是输

    原标题:java程序员斗图表情包 为何总是输 程序员之间的斗图表情包, java真的输惨了! 表情包成了人与人聊天中不可少的分量,陌生人聊天表情包丢出去妥妥的拉近关系变熟络啊(¬_¬) 而且可以用表情 ...

最新文章

  1. ASP.NET MVC 的 WebGrid 的 6 个重要技巧 【已翻译100%】
  2. jsp里面java和js交互_jsp与js交互实例 | 学步园
  3. 用宏定义实现函数值互换
  4. 获取namespace
  5. iOS蓝牙开发CoreBluetooth快速入门
  6. Gauss-Newton算法代码详细解释(转载+自己注释)
  7. 有的日期输入框,可直接调用javascripts
  8. 【Python】pymysql模块处理Mysql数据库
  9. Javascript函数调用的四种方法
  10. 史上最全的开发和设计资源大全
  11. 攀枝花a货翡翠,晋城a货翡翠
  12. 多年JAVA 基础总结
  13. php md5校验工具下载,md5校验工具下载_md5校验工具下载「最新|免费」-太平洋下载中心...
  14. STM32f407 DCMI方式驱动 OV2640
  15. Photoshop将图片转为RGB颜色模式 您还不会吗?
  16. 计算机作文素材,学电脑作文素材
  17. 阿里、华为和微软等多家国内外厂商组团搞OpenJDK,Oracle为啥不参加?
  18. 电阻参数_关于电阻的相关参数
  19. 2021年危险化学品经营单位安全管理人员考试报名及危险化学品经营单位安全管理人员最新解析
  20. Android 操作系统简介

热门文章

  1. geotools中等值面的生成与OL3中的展示
  2. 转自汇编网: 高三老师给大一学生的一封信(感动!)
  3. 计算机软件分类系统软件和,计算机化系统软件分类和验证
  4. 7-2 买电影票 (C语言)
  5. MFC实现程序开机自动运行
  6. 定制个性化App 引领企业跨入互联网时代
  7. 微信罕见出手,再造一个万能的电商平台!
  8. cairo和pixman库给bmp图片加文字水印
  9. 《Head First 系列图书》大集合,附案例分析,免积分下载
  10. 《公司的力量》纪录片