Python斗图网多线程爬取图片

coding:utf-8import requests
import threading #多线程
from lxml import etree #解析网页
from bs4 import BeautifulSoup #页面提取#输出的内容编码是utf-8import sys
reload(sys)
sys.setdefaultencoding('utf-8')def index_url(url):
#加上header是为了防止网站反爬虫的机制 我们使用代理模拟浏览器
#页面的header User-Agent是代理 当前页面的 注：所有User-Agent都是一样的
header={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'}
html=requests.get(url,header).content
return html#获取每个图片链接def get_img(html):
soup = etree.HTML(html)
items=soup.xpath('//div[@class="artile_des"]')
for item in items:
imgurl_list=item.xpath('table/tbody/tr/td/a/img/@onerror')
#print imgurl_list
start_save_img(imgurl_list)
#sys.exit()#获取详情页a标签链接def get_img_html(html):
#创建BeautifulSoup对象
soup = BeautifulSoup(html,'lxml')
#查找a标签 class是关键字使用要加上下划线class_
a_all=soup.find_all('a',class_="list-group-item")
for i in a_all:
img_html=index_url(i['href'])
get_img(img_html)#下载图片def save_img(img_url):
img_url = img_url.split('=')[-1].replace(''','')
img_url = 'http:'+img_url
# print 123
# sys.exit()
# print img_url
# sys.exit()
img_content = requests.get(img_url).content
#print img_content.status_code
save_path='./doutu/'+img_url.split('/')[-1]
# print save_path
# sys.exit()
with open(save_path, 'wb') as f:
print u'正在下载'+img_url.split('/')[-1]
f.write(img_content)#多线程 调用下载图片方法def start_save_img(imgurl_list):
for i in imgurl_list:
th=threading.Thread(target = save_img,args=(i,))
th.start()
def main():
for i in range(1,2):
url = 'https://www.doutula.com/article/list/?page='+str(i)
starthtml = index_url(url)
get_img_html(starthtml)if name == 'main':
main()

Python斗图网多线程爬取图片相关推荐

python多线程处理图片_Python斗图网多线程爬取图片
coding:utf-8 import requests import threading #多线程 from lxml import etree #解析网页 from bs4 import Beau ...
【日常点滴016】python斗图网多线程爬虫
(代码有点老了,怕丢失,发在csdn上,仅做多线程代码了解. 改改结构应该还能用到很多网站上) import requests 斗图网多线程爬虫 from lxml import etree fro ...
2020/4/11 斗图啦多线程爬取表情包
[斗图啦多线程爬虫思路] 网站:https://www.doutula.com/photo/list/?page=1 爬取的是最新的表情包这个页面的图片思路 1.分析需求,创建解析线程和下载线程因 ...
斗图斗不过小伙伴？python多线程爬取斗图网表情包，助你成为斗图帝！
最近python基础课讲到了多线程,老师让交个多线程的实例练习.于是来试试多线程爬虫,正好复习一下mooc上自学的嵩天男神的爬虫知识.想法很美好,过程却很心酸,从早上开始写,每次出现各种奇怪问题,到现 ...
100行代码教你爬取斗图网(Python多线程队列)
100行代码教你爬取斗图网(Python多线程队列) 前言根据之前写的两篇文章,想必大家对多线程和队列有了一个初步的了解,今天这篇文章就来实战一下,用多线程 + 队列爬取斗图网的全网图片. 你还在 ...
使用python爬取斗图网的图片
使用python爬取斗图网的图片以下是代码部分: # -*- coding: utf-8 -*- """ Created on Wed Apr 14 14:41:42 ...
python3爬虫——多线程爬取斗图网表情包
本文用多线程生产者,消费者模式爬取斗图网的表情包,并下载保存到本地,get_page()函数负责获取页面的图片的url链接,downlod_img()函数通过图片url下载保存到本地文件夹中,开启多线 ...
爬虫笔记——多线程爬取斗图网表情包（threading）
爬虫笔记--多线程爬取斗图网表情包(threading) 网站观察爬取框架具体代码斗图网网址:斗图网,这里以爬取最新套图为例. 网站观察在网页翻页操作中可以看到网页是非动态加载的(page为页 ...
多线程爬取斗图网表情包
import requests import re import queue import threading import timeHeaders = {'User-Agent': 'Mozilla ...

Python斗图网多线程爬取图片

Python斗图网多线程爬取图片相关推荐

最新文章

热门文章