【Python爬虫】:爬取干货集中营上的全部美女妹子(翻页处理)
一.确定爬取思路
今天突发奇想,能不能使用python爬虫来爬取一些妹子图片呢,于是摩拳擦掌开始干了起来。首先打开python基础教程网页htttps://gank.io 当中的妹子专栏,
发现里面全是妹子,如下所示:
网址如下所示:
https://gank.io/special/Girl
翻到最下面发现按钮,一共有十个分页,如下所示:
因此我点击了第二个分页,进去查看网页,看点击之后的网址会不会发生改变,如果网址没有发生改变。说明这是一个静态网页,如果改变则说明点击按钮触发了ajax请求,则有可能是get也有可能是post请求。
后来观察发现网址变成了:
https://gank.io/special/Girl/page/2
翻页到第三页,网址则变成了:
https://gank.io/special/Girl/page/3
因此我们肯定是加载的静态网页,因此我们进行翻页就太简单了,只需要变化请求网页的网址即可。于是我们在每一个网页当中查看当前网址的源代码,找到图片源在哪儿:
如下图所示:
这样我们就可以确定图片的url了,在爬取的时候在后面加上jpg的后缀即可。
二.开始编写代码
这样代码就很简单了,如下所示:
import requests
import re
import time
from pandas import Series,DataFrame
#1.编写爬取美女土图片
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'
}page_text=''
print("开始网络爬虫!!")
for i in range(1,10):#对指定url发起的请求url是携带参数的url = 'https://gank.io/special/Girl/page/'url=url+str(i)print(url)response=requests.get(url=url,headers=headers)page_text=page_text+'\n'+response.textprint("这是第{}轮爬取".format(i))#print(page_text)page_text=page_text.split("\n")
# style="background-image:url(
# 这里进行正则匹配
url_list=[]
for i in page_text:if re.match(' style="background-image:url',i):url_list.append(i)else:passi=0
while i<len(url_list):url_list[i]='https://gank.io'+eval(url_list[i].split("(")[1].split(")")[0])i+=1#开始下载图片,每下载成功一次图片,就会显示下载成功
for i in url_list:image_data=requests.get(i,headers=headers).contentimage_name='/'+i.split("/")[4]image_path='./'+image_name+'.jpg'with open(image_path,'wb') as fp:fp.write(image_data)print("{} : 下载成功!".format(image_name))
得解!最后在文件夹里的图片如下所示:
【Python爬虫】:爬取干货集中营上的全部美女妹子(翻页处理)相关推荐
- Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中
Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中 1.需要的Python模块 主要是requests模块,用于得到的网页的数据 安装命令为:pip install requests 2 ...
- 把url地址复制到粘贴板上_写个简单的python爬虫爬取堆糖上漂亮的小姐姐
简单的爬虫入门实战 最近刚学了python的爬虫,刚好可以用来爬取漂亮的图片作为壁纸,网上美图网站有很多,比如:花瓣,堆糖.它们请求图片数据的方式差不多类似,都是通过用户不断下滑加载新的图片,这种请求 ...
- 【爬虫】应用Python爬虫爬取豆瓣租房上的帖子信息
GitHub项目地址:https://github.com/Donvink/Spider.BC 哔哩哔哩代码讲解:https://b23.tv/waSfUa CSDN博客地址:https://blog ...
- python爬虫——爬取拉勾上的职位信息
爬取拉勾网站岗位数据 1.调用网页 查找网页链接规律 写一个for循环,爬取每一个网页的职位信息 def down():for i in range(1,4):if i == 1:strUrl = & ...
- python爬虫网页中的图片_Python爬虫爬取一个网页上的图片地址实例代码
本文实例主要是实现爬取一个网页上的图片地址,具体如下. 读取一个网页的源代码: import urllib.request def getHtml(url): html=urllib.request. ...
- Python爬虫---爬取数据(上)
又是女票,拿了3万多条的13年某地区的公司信息,但是三年过去了,工商局的注册信息发生了巨大变化,有的注册资本增加了,有的公司老板变多了,更有不少公司不存在了,因此,需要一份最新的信息以便于她进行使用. ...
- python爬取大众点评评论_python爬虫抓取数据 小试Python——爬虫抓取大众点评上的数据 - 电脑常识 - 服务器之家...
python爬虫抓取数据 小试Python--爬虫抓取大众点评上的数据 发布时间:2017-04-07
- 四小时学python爬虫爬取信息系列(第一天)
四小时学python爬虫爬取信息系列(第一天)(全是干货) 1.安装requests库(可以在电脑python,我是进入anaconda我建的虚拟环境) anaconda虚拟环境法流程: conda ...
- python网易云_用python爬虫爬取网易云音乐
标签: 使用python爬虫爬取网易云音乐 需要使用的模块 只需要requests模块和os模块即可 开始工作 先去网易云音乐网页版找一下你想要听的歌曲点击进去.按键盘F12打开网页调试工具,点击Ne ...
最新文章
- TensorFlow csv读取文件数据(代码实现)
- linux php ftp扩展,Linux中如何安装 PHP 扩展?(方法介绍)
- python打开一个文件-python下几种打开文件的方式
- 爬虫普及,Web安全更需注意
- 【转载】现代浏览器的工作原理
- 建立神经网络来预测贷款风险
- 2021-2025年中国电子台秤行业市场供需与战略研究报告
- matlab复杂网络仿真,matlab在复杂网络上的应用
- ROM存储1/4周期正弦信号构造DDS
- 数据库基本----SQL语句大全(转载)
- R实战 Nomogram(诺莫图列线图)及其Calibration校准曲线绘制
- 上云十年:阿里云的奇幻漂流
- 【高等数学】微分方程
- 百度云链接使用迅雷下载时提示有误的问题解决
- Android百度地图SDK:隐藏比例尺,隐藏百度LOGO,隐藏缩放控件
- 人类一败涂地做图教程_人类一败涂地-怎么制作地图-地图制作教程详细入门级...
- Progress ThemeBuilder updated Crack
- 1128_AURIX_TC275的基本参数了解
- 链上天眼Pro2.0正式上线
- 云计算机社团,【社联】云社团丨以声传情,以舞会友(第一期)
热门文章
- python素数最优算法_几种简单的求素数算法的复杂度分析
- Centos 安装FFMPEG
- AUTOSAR SecOC 同步异步处理方式分析
- 4k视频写入速度要求_市面常见存储卡的读写速度对比测试
- Android屏幕适配解决方案
- 实习秋招C++知识点总结
- 摄影测量(三):单张像片解析基础
- js replace方法
- 基于JAVA校园摄影爱好者交流网站计算机毕业设计源码+系统+数据库+lw文档+部署
- 手机游戏连接计算机屏幕,推荐一种将手机屏幕投影到计算机大屏幕的软件-PowerMirror...