爬虫-某直播平台图片批量爬取url并下载
后续技术类文档更新到微信公众号-------->>喜欢的扫码关注
import json
import time
import requests
from selenium import webdriverclass HuYa(object):def __init__(self):self.start_url = "https://www.hxyx.com/l"#某直播平台的url地址"x"为缺省值:地址自己定义self.driver = webdriver.Chrome()self.part_url = "https:"self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"}def run(self):# 1. 准备start_url# 2. 发送请求 获取响应self.driver.get(self.start_url)# 3. 提取数据content_list, next_list = self.get_content_url()# 4. 保存数据self.save_coutent(content_list)# 5. 请求下一页的数据while next_list is not None:next_list.click()time.sleep(3)# 提取数据content_list, next_list = self.get_content_url()# 保存数据self.save_coutent(content_list)def get_content_url(self):li_list = self.driver.find_elements_by_xpath("//ul[@id='js-live-list']/li")content_list = []for li in li_list:images = li.find_element_by_xpath(".//a/img[@class='pic']").get_attribute("data-original").split("?")[0]if not images.startswith("https:"):images = self.part_url + imagesprint(images)content_list.append(images)next_url = self.driver.find_elements_by_xpath("//a[@class='laypage_next']")next_url = next_url[0] if len(next_url)>0 else Nonereturn content_list, next_urldef save_coutent(self,conutent_list,):#enumerate 函数用在for中作用是以序列递增for i,img_url in enumerate(conutent_list):response = requests.get(img_url, headers = self.headers)with open("./image/" "huya"+ str(i) + ".png","wb") as f:f.write(response.content)if __name__ == '__main__':huya = HuYa()huya.run()
爬虫-某直播平台图片批量爬取url并下载相关推荐
- python常用小技巧(一)——百度图片批量爬取
python常用小技巧(一)--百度图片无限制批量爬取 前言:我们在日常使用(搜壁纸,搜美女--)或者科研项目(图像识别)中经常要批量获取某种类型的图片,然而很多时候我们都需要一个个点击下载,有什么办 ...
- python爬虫,g-mark网站图片数据爬取及补坑
应用python对g-mark网站图片数据爬取,同时但对于数据抓取失败的图片进行补坑(重新爬取操作),由于是日本网站,没有梯子访问的话,特别容易访问超时,比较合适的补坑操作是直接将数据采集到数据库,而 ...
- 升级完善第一个爬虫GCZW3,使能够批量爬取多篇文章热评
前天写了观察者网的爬虫,只能根据某个网页链接爬取,不能一次性大量爬取多篇文章的热门评论. 于是,今天想把它升级一下,让它可以从首页获取首页展示的所有文章的链接,并分别进行爬取. 于是写了mainPag ...
- python爬虫网页中的图片_Python爬取网页中的图片(搜狗图片)详解
前言 最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: 我们这里以sogou作为爬取的对象. 首先我们进入搜狗图片http://pic.s ...
- python爬斗鱼直播数据图片_Python爬取2000万直播数据——看20万游戏主播能否月入100万...
原标题:Python爬取2000万直播数据--看20万游戏主播能否月入100万 她那时候还太年轻,不知道命运赠送的礼物,早已暗中标好了价格. --茨威格 社会在发展,时代在进步.伴随着未曾停息的拥护声 ...
- python爬取地图上的经纬度_使用高德开放平台api批量爬取所需经纬度及位置信息(平台教程和python多进程、多线程代码详解)...
2019.3.20更新(将代码升级为非阻塞式多进程,效率极大提升) 2019.6.28更新 (将代码模块化,复用性更强,使用更高效的线程池进行爬取) 之前写爬虫对链家某地区全部二手房信息进行了获取并存 ...
- python easyicon同类型ico图片批量爬取
这是第二篇有关图片爬取的博客.似乎本人对图片情有独钟.这篇博客主要是还是用于记录我的学习记录.同时,我们在编写界面的时候,经常需要从网上下载一些ico图标用于自定义控件,也许不同的程序员有自己的下载方 ...
- 为什么要学爬虫---王者荣耀皮肤图片的爬取
一. 爬虫是什么? 网络爬虫是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 简单的说:就是用事先写好的程序去抓取网络上所需的数据.编写网络爬虫的程序员叫做爬虫工程师. . 二. 爬虫的四个 ...
- Python爬虫实战 使用线程池批量爬取必应1080P高清壁纸
本文纯粹为了技术学习,内容如有侵权,请告知! 目标URL:https://bing.ioliu.cn 爬取的图片 Python用到的主要模块 import requests from lxml imp ...
最新文章
- C#编程语言之读取网页内容(微软官网方法)
- 巨鲸任务调度平台:spark flink任务调度
- [转]2006年十二星座运程 目录
- android meta工具,android ota 升级包制作分析 (5 工具)
- 局域网聊天软件 设计文档怎么写?
- 定量的方法如何能划分类别?
- deep linux 看视频卡,在Deepin 20等Linux系统下用Chrome看虎牙直播经常卡的处理
- 最不适合做数据分析的6种性格,看看你占了几个?
- 540.有序数组中的单一元素
- 微服务架构的核心要点和实现原理解析
- hpuoj--校赛--特殊的比赛日期(素数判断+模拟)
- Practical Node.js摘录(2018版)第1,2章。
- 存储过程,是否有查看所有项目功能
- 卧槽,又来一个 Java 神器!!
- mysql的底层运行原理,【数据库】震惊!!MySQL的底层原理竟然是这样
- 序列的傅里叶变换MATLAB实现
- 增量式光电编码器原理及其结构
- 28岁功能测试被辞,最后结局令人感慨...
- Android优化篇之布局优化
- 注意力机制详解(小白入门)
热门文章
- HTML下拉列表(select),单选框(radio), 复选框(checkbox)如何向后端传值
- html a标签小手,a标签
- sysbench 性能测试
- 文件锁(lockf)
- 极智AI | 昆仑芯k200 全高全长推理卡
- Conway's Law
- 通过一文学会搭建Django+Xadmin后台管理系统
- 区块链教程Fabric1.0源代码分析配置交易-生成通道配置二
- 专题一:欧拉视频放大(线性)------MATLAB代码解析(一.maxPyrHt(imsz,filtsz))
- Windows系统上如何在局域网中创建共享文件夹及取消文件夹共享