import requests
import parselpage_num = 1
for page in range(0,57000+1,50):print("==============正在爬取第{}页=========".format(page_num))page_num+=1# 1.分析目标网页,确定爬取到url路径, headers参数base_url = "https://tieba.baidu.com/f?kw=%E7%BA%A6%E4%BC%9A&ie=utf-8&pn={}".format(page)headers = {'User-Agent': "User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0"}# 2.发送请求,requests,模拟浏览器发送请求,获取相应数据# 这是一个对象,利用.text来提取其中的数据response = requests.get(url=base_url, headers=headers)html_str = response.text# print(html_str)# 3.解析数据 parsel 转化为Selector对象,Selector对象具有xpath的方法,能够对转化的数据进行处理html = parsel.Selector(html_str)# 这里使用谷歌的请求头一直请求不出内容,换了IE的请求头即可。title_url = html.xpath('//div[@class="threadlist_title pull_left j_th_tit "]/a/@href').extract()for title in title_url:all_url = "https://tieba.baidu.com" + titleresponse_2 = requests.get(url=all_url, headers=headers).textresponse_2_data = parsel.Selector(response_2)pic_url = response_2_data.xpath('//div[@class="d_post_content j_d_post_content "]/img[@class="BDE_Image"]/@src').extract()for pic in pic_url:file_name = pic.split('/')[-1]img = requests.get(url=pic, headers=headers).content# 4.数据保存with open('img\\' + file_name, "wb") as f:f.write(img)

视频学习地址:https://space.bilibili.com/16682415?spm_id_from=333.788.b_765f7570696e666f.1

爬虫01-爬取约会吧图片相关推荐

  1. lofter 爬虫_Python网络爬虫1 - 爬取网易LOFTER图片

    LOFTER是网易出品的优质轻博客,灵感源于国外的tumblr,但比之更加文艺,更加本地化.本人非常喜欢LOFTER的UI设计,以及其中的优质用户和内容,似乎网易并不擅长推广,所以受众并不广泛.这都是 ...

  2. python爬虫:爬取所有车标图片保存本地

    python爬虫:爬取所有车标图片保存本地 这次没想到会这么轻松,找了几个网站分析结构发现腾讯汽车的json接口,很轻松爬下所有的图标.上图: 总共209个牌子,以车牌子命名. 分析网页 一开始找了好 ...

  3. Java爬虫-WebMagic爬取博客图片(好色龍的網路觀察日誌)

    WebMagic爬取博客图片 最近在学习java爬虫,接触到WebMagic框架,正好拿我喜爱的博客来练习,希望龙哥(博主)不要责备我~~ 博客链接: 好色龍的網路觀察日誌 ,超级有趣的翻译漫画,持续 ...

  4. Python爬虫入门——爬取贴吧图片

    最近忽然想听一首老歌,"I believe" 于是到网上去搜,把几乎所有的版本的MV都看了一遍(也是够无聊的),最喜欢的还是最初版的<我的野蛮女友>电影主题曲的哪个版本 ...

  5. 爬虫之爬取猫咪图片(2.0版)

    爬取猫咪图片2.0 一.前言 二.环境准备 三.具体实现 1~3 略 4.GUI设计 1.界面设计 2.弹窗提示 3.打包可执行文件 7.成果 四.最后 上次一篇文章得到了大佬们的指点,提出了改进意见 ...

  6. 百度图片爬虫,爬取高清图片

    在做深度学习研究与应用的时候,经常需要爬取样本,例如,超分辨率重建,实际的训练与产品应用中,你需要爬取一些高清的图片,下面提供一个简单的爬虫: # coding=utf-8 import re imp ...

  7. python爬虫实践-爬取京东商品图片

    这段时间,因为疫情在家无聊,想起了网络爬虫,之前有写过使用requests库,又学了下使用urllib库,在这里记录下学习过程. 首先使用的IDE是pycharm,解释器版本3. 第一步:分析某东的u ...

  8. python爬虫之爬取贴吧图片

    确定爬取流程 手动翻页观察URL结构,构造URL列表. 发送request请求包. 解析response回复包,提取所需数据. 存储数据. 1.观察URL,构造url列表 第一页:https://ti ...

  9. 数据获取网络爬虫之--爬取小姐姐图片

    运行环境: python3+jupyter notebook 可直接运行 代码下载地址: https://download.csdn.net/download/weixin_44754046/1122 ...

  10. python批量访问网页保存结果_Python爬虫(批量爬取某网站图片)

    1.需要用到的库有: Requests re os time 如果没有安装的请自己安装一下,pycharm中打开终端输入命令就可以安装 2.IDE : pycharm 3.python 版本: 3.8 ...

最新文章

  1. Winform控件:打开文件对话框(OpenFileDialog)
  2. 理解大型分布式网站你应该知道这些概念
  3. Linux下CMake简明教程(七)对库进行链接
  4. ubantu安装coturn穿透服务器
  5. python群发邮箱软件下载_用python群发电子邮件
  6. bupt summer training for 16 #3 ——构造
  7. java二分查找算法字符串数组_Java 算法——二分查找数组集合关键元素
  8. 东农计算机应用与技术,东农16春《计算机应用与技术》在线作业.doc
  9. 2018科大讯飞AI营销算法大赛总结(冠军)
  10. 举例在项目中动态构建自己的程序集,.NET产生动态程序集!
  11. c语言输出杨辉三角漏斗,for循环输出漏斗的形状【java】
  12. c语言中isupper用法,C语言 isupper()用法及代码示例
  13. 情侣天气推送升级简单版 项目上传github实现定时自动推送教程
  14. Windows去弹窗广告神器!
  15. php 照片变成卡通照片,怎么把照片变成卡通人物 如何把照片变成卡通画 把照片变成卡通人物...
  16. Mybatis Generator配置文件
  17. android 缓存头像,android 实现类似微信缓存和即时更新好友头像
  18. CDC *pDC=GetDC();具体是什么意思?
  19. 程序员专属浪漫快拿去哄npy吧
  20. 华为云 linux系统 ESC服务器 javaweb 环境配置

热门文章

  1. 考研复试数据库原理课后习题(十)——数据库恢复技术
  2. Radarsat-2全极化SAR数据C3和T3矩阵的提取———PolSARpro
  3. 总结自适应网站的标准尺寸
  4. 『CSS』CSS样式表的三种引入方式
  5. 弹出式网络广告价值分析案例
  6. 字符串编辑距离之Damerau–Levenshtein Distance
  7. 【夏令营QA】2021年中国人民大学信息学院 | 高瓴人工智能学院夏令营经验分享帖
  8. 程序员的自我修养——读书笔记
  9. java老鼠走迷宫算法_老鼠走迷宫java算法
  10. 别做无用功-禁止谷歌字体真的能加速网站访问速度吗?