爬虫01-爬取约会吧图片
import requests
import parselpage_num = 1
for page in range(0,57000+1,50):print("==============正在爬取第{}页=========".format(page_num))page_num+=1# 1.分析目标网页,确定爬取到url路径, headers参数base_url = "https://tieba.baidu.com/f?kw=%E7%BA%A6%E4%BC%9A&ie=utf-8&pn={}".format(page)headers = {'User-Agent': "User-Agent:Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0"}# 2.发送请求,requests,模拟浏览器发送请求,获取相应数据# 这是一个对象,利用.text来提取其中的数据response = requests.get(url=base_url, headers=headers)html_str = response.text# print(html_str)# 3.解析数据 parsel 转化为Selector对象,Selector对象具有xpath的方法,能够对转化的数据进行处理html = parsel.Selector(html_str)# 这里使用谷歌的请求头一直请求不出内容,换了IE的请求头即可。title_url = html.xpath('//div[@class="threadlist_title pull_left j_th_tit "]/a/@href').extract()for title in title_url:all_url = "https://tieba.baidu.com" + titleresponse_2 = requests.get(url=all_url, headers=headers).textresponse_2_data = parsel.Selector(response_2)pic_url = response_2_data.xpath('//div[@class="d_post_content j_d_post_content "]/img[@class="BDE_Image"]/@src').extract()for pic in pic_url:file_name = pic.split('/')[-1]img = requests.get(url=pic, headers=headers).content# 4.数据保存with open('img\\' + file_name, "wb") as f:f.write(img)
视频学习地址:https://space.bilibili.com/16682415?spm_id_from=333.788.b_765f7570696e666f.1
爬虫01-爬取约会吧图片相关推荐
- lofter 爬虫_Python网络爬虫1 - 爬取网易LOFTER图片
LOFTER是网易出品的优质轻博客,灵感源于国外的tumblr,但比之更加文艺,更加本地化.本人非常喜欢LOFTER的UI设计,以及其中的优质用户和内容,似乎网易并不擅长推广,所以受众并不广泛.这都是 ...
- python爬虫:爬取所有车标图片保存本地
python爬虫:爬取所有车标图片保存本地 这次没想到会这么轻松,找了几个网站分析结构发现腾讯汽车的json接口,很轻松爬下所有的图标.上图: 总共209个牌子,以车牌子命名. 分析网页 一开始找了好 ...
- Java爬虫-WebMagic爬取博客图片(好色龍的網路觀察日誌)
WebMagic爬取博客图片 最近在学习java爬虫,接触到WebMagic框架,正好拿我喜爱的博客来练习,希望龙哥(博主)不要责备我~~ 博客链接: 好色龍的網路觀察日誌 ,超级有趣的翻译漫画,持续 ...
- Python爬虫入门——爬取贴吧图片
最近忽然想听一首老歌,"I believe" 于是到网上去搜,把几乎所有的版本的MV都看了一遍(也是够无聊的),最喜欢的还是最初版的<我的野蛮女友>电影主题曲的哪个版本 ...
- 爬虫之爬取猫咪图片(2.0版)
爬取猫咪图片2.0 一.前言 二.环境准备 三.具体实现 1~3 略 4.GUI设计 1.界面设计 2.弹窗提示 3.打包可执行文件 7.成果 四.最后 上次一篇文章得到了大佬们的指点,提出了改进意见 ...
- 百度图片爬虫,爬取高清图片
在做深度学习研究与应用的时候,经常需要爬取样本,例如,超分辨率重建,实际的训练与产品应用中,你需要爬取一些高清的图片,下面提供一个简单的爬虫: # coding=utf-8 import re imp ...
- python爬虫实践-爬取京东商品图片
这段时间,因为疫情在家无聊,想起了网络爬虫,之前有写过使用requests库,又学了下使用urllib库,在这里记录下学习过程. 首先使用的IDE是pycharm,解释器版本3. 第一步:分析某东的u ...
- python爬虫之爬取贴吧图片
确定爬取流程 手动翻页观察URL结构,构造URL列表. 发送request请求包. 解析response回复包,提取所需数据. 存储数据. 1.观察URL,构造url列表 第一页:https://ti ...
- 数据获取网络爬虫之--爬取小姐姐图片
运行环境: python3+jupyter notebook 可直接运行 代码下载地址: https://download.csdn.net/download/weixin_44754046/1122 ...
- python批量访问网页保存结果_Python爬虫(批量爬取某网站图片)
1.需要用到的库有: Requests re os time 如果没有安装的请自己安装一下,pycharm中打开终端输入命令就可以安装 2.IDE : pycharm 3.python 版本: 3.8 ...
最新文章
- Winform控件:打开文件对话框(OpenFileDialog)
- 理解大型分布式网站你应该知道这些概念
- Linux下CMake简明教程(七)对库进行链接
- ubantu安装coturn穿透服务器
- python群发邮箱软件下载_用python群发电子邮件
- bupt summer training for 16 #3 ——构造
- java二分查找算法字符串数组_Java 算法——二分查找数组集合关键元素
- 东农计算机应用与技术,东农16春《计算机应用与技术》在线作业.doc
- 2018科大讯飞AI营销算法大赛总结(冠军)
- 举例在项目中动态构建自己的程序集,.NET产生动态程序集!
- c语言输出杨辉三角漏斗,for循环输出漏斗的形状【java】
- c语言中isupper用法,C语言 isupper()用法及代码示例
- 情侣天气推送升级简单版 项目上传github实现定时自动推送教程
- Windows去弹窗广告神器!
- php 照片变成卡通照片,怎么把照片变成卡通人物 如何把照片变成卡通画 把照片变成卡通人物...
- Mybatis Generator配置文件
- android 缓存头像,android 实现类似微信缓存和即时更新好友头像
- CDC *pDC=GetDC();具体是什么意思?
- 程序员专属浪漫快拿去哄npy吧
- 华为云 linux系统 ESC服务器 javaweb 环境配置