1、目的

高效爬取图片,联系基本的xpath,以及简单函数,文件存储等。

2、逻辑实现

运用requests 发起get请求url 得到response_html
再解析数据
data = etree.HTML(response_html.text)
from lxml import etree
再用xpath定位想要的地址
匹配规则
以虎牙直播为例
按f12 点击元素选择器element

选着图片获得图片位置,上图的img标签中的src data-original 属性为图片地址。
gilrs = data.xpath(’//img[@calss=“pic”]#获得整个页面的girl定位
选择每一个直播图片地址
for girl in girls:#一个直播
选择图片
img_src = girl.xpath(’./@data-original ‘)[0]
img_src是一个列表
img_src = img_src.split(’?’)[0]#选择?左边字符
image = requests.get(url=img_src)
文件名字选择直播名字,选择的直播之前字符
pic_name = girl.xpath(’./@alt’)[0].split(‘的直播’)[0]
文件写入,我的code 与data为同一个文件夹中,用的…/data/+文件名
with open(’…/data/’+pic_name+’.jpg’,‘wb’) as jpg:
jpg.write(image.content)
time.sleep(1)
print( pic_name,’–’,img_src,‘downloading…’)

3、代码

import requests
import timefrom lxml import etree
url = 'https://www.huya.com/g/4079'
res = requests.get(url=url)
data = etree.HTML(res.text)
girls = data.xpath('//img[@class="pic"]')
for girl in girls:pic_name = girl.xpath('./@alt')[0].split('的直播')[0]img_src = girl.xpath('./@data-original')[0]img_src = img_src.split('?')[0]image = requests.get(url=img_src)with open('../data/'+pic_name+'.jpg','wb') as jpg:jpg.write(image.content)time.sleep(1)print( pic_name,'--',img_src,'downloading..........')

4、结果展示




5、感悟

因为这里数据量比较少,而且访问不多,所以写的比较简单,没有写入请求头,也没有加入代理IP,如果需要爬取大量数据图片,写一个IP池,或者请求头等等。
requests.get(url=url,headers = headers,proxies=proxies)

lsp篇批量爬取你喜欢的虎牙直播美女图片相关推荐

  1. Python批量爬取微信公众号文章中的图片重建PowerPoint文件

    开学第一课:一定不要这样问老师Python问题 董付国老师Python系列教材推荐与选用参考 3000道Python习题免费在线练习 ============= 版权声明:由于公众号后台规则问题,本文 ...

  2. Python爬虫入门案例教学:批量爬取彼岸桌面4K超清美女壁纸

    先图片开路 环境介绍 python 3.6 / 3.8 pycharm 编辑器 requests parsel os 文件操作 在cmd里面就可以进行安装 pip install requests 无 ...

  3. 升级完善第一个爬虫GCZW3,使能够批量爬取多篇文章热评

    前天写了观察者网的爬虫,只能根据某个网页链接爬取,不能一次性大量爬取多篇文章的热门评论. 于是,今天想把它升级一下,让它可以从首页获取首页展示的所有文章的链接,并分别进行爬取. 于是写了mainPag ...

  4. python怎么批量爬取图片_python批量爬取网络图片

    上篇通过python爬取了一篇网络小说,初步了解了爬虫的四步流程,本文稍微扩展一点,试着从网页中爬取出多个图片,具体来看看: 我们今天试着从下面图1的网页上将所有图片都爬取出来,放在一个指定的文件夹里 ...

  5. python实战-HTML形式爬虫-批量爬取电影下载链接

    文章目录 一.前言 二.思路 1.网站返回内容 2.url分页结构 3.子页面访问形式 4.多种下载链接判断 三.具体代码的实现 四.总结 一.前言   喜欢看片的小伙伴,肯定想打造属于自己的私人影院 ...

  6. 疫情过去女朋友想去重庆玩,python批量爬取小猪短租重庆民宿信息

    疫情过去女朋友想去重庆玩,python批量爬取小猪短租重庆民宿信息 随着时间的流逝,在中国共产党的领导,全国人民的共同努力下,疫情逐渐受到了控制,逐渐好转,复工,开学有望.最近在和女朋友的闲聊当中得知 ...

  7. Python批量爬取王者荣耀英雄高清壁纸

    Python批量爬取王者荣耀英雄高清壁纸 文章目录 Python批量爬取王者荣耀英雄高清壁纸 前言 爬虫步骤 python代码实现 总结 前言 很多喜欢玩王者的朋友很希望把王者荣耀的英雄图片拿来做壁纸 ...

  8. python爬取图片_python批量爬取网络图片

    上篇通过python爬取了一篇网络小说,初步了解了爬虫的四步流程,本文稍微扩展一点,试着从网页中爬取出多个图片,具体来看看: 我们今天试着从下面图1的网页上将所有图片都爬取出来,放在一个指定的文件夹里 ...

  9. Python爬虫学习,批量爬取下载抖音视频

    这篇文章主要为大家详细介绍了python批量爬取下载抖音视频,具有一定的参考价值,感兴趣的小伙 项目源码展示 ''' 注:如果你对python感兴趣,我这有个学习Python基地,里面有很多学习资料, ...

最新文章

  1. 文件打开不关闭程序会输出吗_干货!很多资深用户都不知道的10个BOOX阅读器使用技巧,很实用!...
  2. php新闻删除功能设计,php原生开发新闻站之删除新闻
  3. flash java 6,为Flash构建 Java WebService
  4. c++ winpcap开发(9)
  5. LeetCode 137. 只出现一次的数字 II
  6. python二进制反码例题_python中的进制转换和原码,反码,补码
  7. 如何访问局域网的Access数据库?
  8. java程序自动重启_java程序自动重启
  9. 区块链 智能合约 执行原理
  10. 土建中级工程师考试用书电子版_对没错!2020年湖南土建中级职称考试教材只是指导用书...
  11. 软件工程--可行性研究
  12. 程序员那些你不知道的事:高收入程序员年薪高于50万,近四成程序员单身
  13. 微信图片怎么添加竖排文字_微信图文排版怎么在图片上加文字?
  14. people are able to buy the same products anywhere in the world
  15. CSP 201409-5 拼图问题(给出一个n×m的方格图,现在要用如下L型的积木拼到这个图中......)
  16. 盘点机器视觉三大落地成熟应用
  17. 揭秘团队业绩不好的原因
  18. 强生稳豪倍优型血糖仪试纸_强生稳豪倍优型血糖仪(送50片试纸)
  19. Linux系统下的分区管理
  20. Unity 利用花生壳搭建一个可供外网联机的游戏服务器

热门文章

  1. go mirco 微服务框
  2. iOS模拟器中图片在mac电脑中的实际位置
  3. 物联网知识:工业物联网关具备那些优秀的功能及特点
  4. 基于开源硬件Banana Pi 的工业物联网关设计
  5. iOS - OC NSCalendar 日历
  6. 新公司去国税办理发票业务
  7. 武大计算机学院导师韩波,我的导师李德仁 (一)
  8. matlab由两位随机整数构成的矩阵,建立5阶由两位随机整数构成的矩阵A,其语句是()。...
  9. 1.百度地图api3.0-设置点的弹跳点
  10. 互联网形势不容乐观,360董事长周鸿祎年会送“免裁卡”安定军心