后续技术类文档更新到微信公众号-------->>喜欢的扫码关注


import json
import time
import requests
from selenium import webdriverclass HuYa(object):def __init__(self):self.start_url = "https://www.hxyx.com/l"#某直播平台的url地址"x"为缺省值:地址自己定义self.driver = webdriver.Chrome()self.part_url = "https:"self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/71.0.3578.98 Safari/537.36"}def run(self):# 1. 准备start_url# 2. 发送请求 获取响应self.driver.get(self.start_url)# 3. 提取数据content_list, next_list = self.get_content_url()# 4. 保存数据self.save_coutent(content_list)# 5. 请求下一页的数据while next_list is not None:next_list.click()time.sleep(3)#  提取数据content_list, next_list = self.get_content_url()#  保存数据self.save_coutent(content_list)def get_content_url(self):li_list = self.driver.find_elements_by_xpath("//ul[@id='js-live-list']/li")content_list = []for li in li_list:images = li.find_element_by_xpath(".//a/img[@class='pic']").get_attribute("data-original").split("?")[0]if  not images.startswith("https:"):images = self.part_url + imagesprint(images)content_list.append(images)next_url = self.driver.find_elements_by_xpath("//a[@class='laypage_next']")next_url = next_url[0] if len(next_url)>0 else Nonereturn content_list, next_urldef save_coutent(self,conutent_list,):#enumerate 函数用在for中作用是以序列递增for i,img_url in enumerate(conutent_list):response = requests.get(img_url, headers = self.headers)with open("./image/" "huya"+ str(i) + ".png","wb") as f:f.write(response.content)if __name__ == '__main__':huya = HuYa()huya.run()

爬虫-某直播平台图片批量爬取url并下载相关推荐

  1. python常用小技巧(一)——百度图片批量爬取

    python常用小技巧(一)--百度图片无限制批量爬取 前言:我们在日常使用(搜壁纸,搜美女--)或者科研项目(图像识别)中经常要批量获取某种类型的图片,然而很多时候我们都需要一个个点击下载,有什么办 ...

  2. python爬虫,g-mark网站图片数据爬取及补坑

    应用python对g-mark网站图片数据爬取,同时但对于数据抓取失败的图片进行补坑(重新爬取操作),由于是日本网站,没有梯子访问的话,特别容易访问超时,比较合适的补坑操作是直接将数据采集到数据库,而 ...

  3. 升级完善第一个爬虫GCZW3,使能够批量爬取多篇文章热评

    前天写了观察者网的爬虫,只能根据某个网页链接爬取,不能一次性大量爬取多篇文章的热门评论. 于是,今天想把它升级一下,让它可以从首页获取首页展示的所有文章的链接,并分别进行爬取. 于是写了mainPag ...

  4. python爬虫网页中的图片_Python爬取网页中的图片(搜狗图片)详解

    前言 最近几天,研究了一下一直很好奇的爬虫算法.这里写一下最近几天的点点心得.下面进入正文: 你可能需要的工作环境: 我们这里以sogou作为爬取的对象. 首先我们进入搜狗图片http://pic.s ...

  5. python爬斗鱼直播数据图片_Python爬取2000万直播数据——看20万游戏主播能否月入100万...

    原标题:Python爬取2000万直播数据--看20万游戏主播能否月入100万 她那时候还太年轻,不知道命运赠送的礼物,早已暗中标好了价格. --茨威格 社会在发展,时代在进步.伴随着未曾停息的拥护声 ...

  6. python爬取地图上的经纬度_使用高德开放平台api批量爬取所需经纬度及位置信息(平台教程和python多进程、多线程代码详解)...

    2019.3.20更新(将代码升级为非阻塞式多进程,效率极大提升) 2019.6.28更新 (将代码模块化,复用性更强,使用更高效的线程池进行爬取) 之前写爬虫对链家某地区全部二手房信息进行了获取并存 ...

  7. python easyicon同类型ico图片批量爬取

    这是第二篇有关图片爬取的博客.似乎本人对图片情有独钟.这篇博客主要是还是用于记录我的学习记录.同时,我们在编写界面的时候,经常需要从网上下载一些ico图标用于自定义控件,也许不同的程序员有自己的下载方 ...

  8. 为什么要学爬虫---王者荣耀皮肤图片的爬取

    一. 爬虫是什么? 网络爬虫是一种按照一定的规则,自动的抓取万维网信息的程序或者脚本. 简单的说:就是用事先写好的程序去抓取网络上所需的数据.编写网络爬虫的程序员叫做爬虫工程师. . 二. 爬虫的四个 ...

  9. Python爬虫实战 使用线程池批量爬取必应1080P高清壁纸

    本文纯粹为了技术学习,内容如有侵权,请告知! 目标URL:https://bing.ioliu.cn 爬取的图片 Python用到的主要模块 import requests from lxml imp ...

最新文章

  1. C#编程语言之读取网页内容(微软官网方法)
  2. 巨鲸任务调度平台:spark flink任务调度
  3. [转]2006年十二星座运程 目录
  4. android meta工具,android ota 升级包制作分析 (5 工具)
  5. 局域网聊天软件 设计文档怎么写?
  6. 定量的方法如何能划分类别?
  7. deep linux 看视频卡,在Deepin 20等Linux系统下用Chrome看虎牙直播经常卡的处理
  8. 最不适合做数据分析的6种性格,看看你占了几个?
  9. 540.有序数组中的单一元素
  10. 微服务架构的核心要点和实现原理解析
  11. hpuoj--校赛--特殊的比赛日期(素数判断+模拟)
  12. Practical Node.js摘录(2018版)第1,2章。
  13. 存储过程,是否有查看所有项目功能
  14. 卧槽,又来一个 Java 神器!!
  15. mysql的底层运行原理,【数据库】震惊!!MySQL的底层原理竟然是这样
  16. 序列的傅里叶变换MATLAB实现
  17. 增量式光电编码器原理及其结构
  18. 28岁功能测试被辞,最后结局令人感慨...
  19. Android优化篇之布局优化
  20. 注意力机制详解(小白入门)

热门文章

  1. HTML下拉列表(select),单选框(radio), 复选框(checkbox)如何向后端传值
  2. html a标签小手,a标签
  3. sysbench 性能测试
  4. 文件锁(lockf)
  5. 极智AI | 昆仑芯k200 全高全长推理卡
  6. Conway's Law
  7. 通过一文学会搭建Django+Xadmin后台管理系统
  8. 区块链教程Fabric1.0源代码分析配置交易-生成通道配置二
  9. 专题一:欧拉视频放大(线性)------MATLAB代码解析(一.maxPyrHt(imsz,filtsz))
  10. Windows系统上如何在局域网中创建共享文件夹及取消文件夹共享