Python 异步爬虫爬取图片

周末没什么事,想温习一下以前学过的python爬虫,抓了一些图片,发现优点慢,于是改成了异步爬虫,用了几个异步的库

同步方法

import requests
from lxml import etree
from time import time
from selenium import webdriver
import os
from time import sleepheaders = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.80 Safari/537.36 Edg/86.0.622.43",
}def preprocessing(browser):url = 'https://m.tuiimg.com/'browser.get(url=url)windows = browser.window_handlesa_arr = browser.find_elements_by_xpath('//*[@id="main"]/li/a')for image in a_arr:# 图片地址 https://m.tuiimg.com/meinv/2195/item_href = image.get_attribute("href")# # 图集id# images_id = item_href.split('/')[-2]# print(images_id)res = requests.get(url=item_href, headers=headers).contenttree = etree.HTML(res)total_text = tree.xpath('//*[@id="allbtn"]/text()')[0]# 图集总数量image_total = int(total_text.split('/')[1].replace(")", ""))# 图解名称images_name = tree.xpath('//*[@id="container"]/div[3]/h1/text()')[0]print(images_name)base_img_url = "/".join(tree.xpath('//*[@id="nowimg"]/@src')[0].split("/")[0:-1]) + "/"print(base_img_url)start_time = time()for i in range(1, image_total + 1):image_url = base_img_url + str(i) + ".jpg"saveImage(image_url,images_name + str(i) + ".jpg")print(images_name, "图集下载花费的时间是" + str(time() - start_time), "秒")def saveImage(image_url,images_name):file_path = "./妹子美图合集/"if not os.path.exists(file_path):os.mkdir(file_path)imag = requests.get(url=image_url, headers=headers).contentwith open(file_path + images_name, "wb") as fp:fp.write(imag)print(images_name,"保存成功")if __name__ == '__main__':chrome = webdriver.Chrome(executable_path='chromedriver.exe')preprocessing(browser=chrome)

下一组图,大概60s 于是就有了下面的代码

异步方法

import requests
import aiohttp
import asyncio
import aiofiles
from time import time
from lxml import etree
from selenium import webdriver
import os
from time import sleepheaders = {"user-agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.80 Safari/537.36 Edg/86.0.622.43",
}def preprocessing(browser):url = 'https://m.tuiimg.com/'browser.get(url=url)windows = browser.window_handlesa_arr = browser.find_elements_by_xpath('//*[@id="main"]/li/a')for image in a_arr:# 图片地址 https://m.tuiimg.com/meinv/2195/item_href = image.get_attribute("href")res = requests.get(url=item_href, headers=headers).contenttree = etree.HTML(res)total_text = tree.xpath('//*[@id="allbtn"]/text()')[0]# 图集总数量image_total = int(total_text.split('/')[1].replace(")", ""))# 图解名称images_name = tree.xpath('//*[@id="container"]/div[3]/h1/text()')[0]print(images_name)base_img_url = "/".join(tree.xpath('//*[@id="nowimg"]/@src')[0].split("/")[0:-1]) + "/"print(base_img_url)start_time = time()tasks = []for i in range(1, image_total + 1):# 耗时操作 异步处理tasks.append(saveImage(base_img_url + str(i) + ".jpg", images_name + str(i) + ".jpg"))loop = asyncio.get_event_loop()loop.run_until_complete(asyncio.wait(tasks))print(images_name, "图集下载花费的时间是" + str(time() - start_time), "秒")async def saveImage(image_url, images_name):print("准备下载", images_name)file_path = "./妹子美图合集1/"if not os.path.exists(file_path):os.mkdir(file_path)async with aiohttp.ClientSession(headers=headers) as session:async with session.get(url=image_url) as response:async with aiofiles.open(file_path + images_name, "wb") as afp:await afp.write(await response.content.read())print(images_name, "保存成功")if __name__ == '__main__':chrome = webdriver.Chrome(executable_path='chromedriver.exe')preprocessing(browser=chrome)

效率大概提升了5倍,还凑和…

把那个字符串换成正则还能再快点


image_total = int(re.search('([1-9]\\d+)|[2-9]', tree.xpath('//*[@id="allbtn"]/text()')[0]).group())base_img_url = re.sub('\\w.jpg', '', tree.xpath('//*[@id="nowimg"]/@src')[0])

Python 异步爬虫爬取图片相关推荐

Python网络爬虫爬取图片
环境: 我的是Linux系统环境:python3.7.2 软件:Pycharm(或者直接用命令行操作也行) 进入正题: 本人是胡歌的粉,爬取一下豆瓣里的琅琊榜页面的一些图片,hhhhh 网址:htt ...
python爬虫爬取图片无法打开_半小时入门python爬虫爬下网站图片，不能再简单了...
阅读本文大约需要2分钟本文旨在为没有爬虫基础的,偶尔想爬虫爬一下某个网站上的图片的初学者使用,如果你已经是对爬虫很熟悉了,下面依然有你感兴趣的东西. 我最近也才正儿八经学习了下爬虫,出于某种需要爬一 ...
【大学生课程实践】实操：使用Python爬虫爬取图片
实操:使用Python爬虫爬取图片参考链接: 源码部署安装源码中的爬虫库创建 images文件参考链接: 本博客作为大佬博客学习笔记记录参考链接:孩子说"你没看过奥特曼" ...
图片的批量下载和爬虫爬取图片数据集
图片的批量下载和爬虫爬取图片数据集 1.图片的批量下载 1.图片的批量下载数据集是深度学习的一切,没有数据集它什么也不是,现在你知道数据集很重要了吧代码: ''' 项目名称:爬取公章数据创建 ...
如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
python爬电影_使用Python多线程爬虫爬取电影天堂资源
最近花些时间学习了一下Python,并写了一个多线程的爬虫程序来获取电影天堂上资源的迅雷下载地址,代码已经上传到GitHub上了,需要的同学可以自行下载.刚开始学习python希望可以获得宝贵的意见. ...
python朋友圈动态_如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）
前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往下继续深入. 一.代码实现 1.修改Scrapy项目中的items.py ...
python抓取朋友圈动态_如何利用Python网络爬虫爬取微信朋友圈动态--附代码（下）...
原标题:如何利用Python网络爬虫爬取微信朋友圈动态--附代码(下) 前天给大家分享了如何利用Python网络爬虫爬取微信朋友圈数据的上篇(理论篇),今天给大家分享一下代码实现(实战篇),接着上篇往 ...
Python动态爬虫爬取京东商品评论
Python 动态爬虫爬取京东商品评论 1. 概述京东商城是Python爬虫初学者试手的经典平台,反爬虫程度较低,但评论采取了动态加载的方式,爬取京东商品评论是学习动态爬虫的一个极佳方法. 动态爬虫 ...

Python 异步爬虫爬取图片

Python 异步爬虫爬取图片相关推荐

最新文章

热门文章