【Python爬虫】：爬取干货集中营上的全部美女妹子（翻页处理）

一.确定爬取思路
今天突发奇想，能不能使用python爬虫来爬取一些妹子图片呢，于是摩拳擦掌开始干了起来。首先打开python基础教程网页htttps://gank.io 当中的妹子专栏，

发现里面全是妹子，如下所示：

网址如下所示：

https://gank.io/special/Girl

翻到最下面发现按钮，一共有十个分页，如下所示：

因此我点击了第二个分页，进去查看网页，看点击之后的网址会不会发生改变，如果网址没有发生改变。说明这是一个静态网页，如果改变则说明点击按钮触发了ajax请求，则有可能是get也有可能是post请求。

后来观察发现网址变成了：

https://gank.io/special/Girl/page/2
翻页到第三页，网址则变成了：

https://gank.io/special/Girl/page/3
因此我们肯定是加载的静态网页，因此我们进行翻页就太简单了，只需要变化请求网页的网址即可。于是我们在每一个网页当中查看当前网址的源代码，找到图片源在哪儿：

如下图所示：

这样我们就可以确定图片的url了，在爬取的时候在后面加上jpg的后缀即可。

二.开始编写代码
这样代码就很简单了，如下所示：

import requests
import re
import time
from pandas import Series,DataFrame
#1.编写爬取美女土图片
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'
}page_text=''
print("开始网络爬虫！！")
for i in range(1,10):#对指定url发起的请求url是携带参数的url = 'https://gank.io/special/Girl/page/'url=url+str(i)print(url)response=requests.get(url=url,headers=headers)page_text=page_text+'\n'+response.textprint("这是第{}轮爬取".format(i))#print(page_text)page_text=page_text.split("\n")
#               style="background-image:url(
# 这里进行正则匹配
url_list=[]
for i in page_text:if re.match('               style="background-image:url',i):url_list.append(i)else:passi=0
while i<len(url_list):url_list[i]='https://gank.io'+eval(url_list[i].split("(")[1].split(")")[0])i+=1#开始下载图片，每下载成功一次图片，就会显示下载成功
for i in url_list:image_data=requests.get(i,headers=headers).contentimage_name='/'+i.split("/")[4]image_path='./'+image_name+'.jpg'with open(image_path,'wb') as fp:fp.write(image_data)print("{} : 下载成功！".format(image_name))

得解！最后在文件夹里的图片如下所示：

【Python爬虫】：爬取干货集中营上的全部美女妹子（翻页处理）相关推荐

Python爬虫:爬取知乎上的视频，并把下载链接保存到md文件中
Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中 1.需要的Python模块主要是requests模块,用于得到的网页的数据安装命令为:pip install requests 2 ...
把url地址复制到粘贴板上_写个简单的python爬虫爬取堆糖上漂亮的小姐姐
简单的爬虫入门实战最近刚学了python的爬虫,刚好可以用来爬取漂亮的图片作为壁纸,网上美图网站有很多,比如:花瓣,堆糖.它们请求图片数据的方式差不多类似,都是通过用户不断下滑加载新的图片,这种请求 ...
【爬虫】应用Python爬虫爬取豆瓣租房上的帖子信息
GitHub项目地址:https://github.com/Donvink/Spider.BC 哔哩哔哩代码讲解:https://b23.tv/waSfUa CSDN博客地址:https://blog ...
python爬虫——爬取拉勾上的职位信息
爬取拉勾网站岗位数据 1.调用网页查找网页链接规律写一个for循环,爬取每一个网页的职位信息 def down():for i in range(1,4):if i == 1:strUrl = & ...
python爬虫网页中的图片_Python爬虫爬取一个网页上的图片地址实例代码
本文实例主要是实现爬取一个网页上的图片地址,具体如下. 读取一个网页的源代码: import urllib.request def getHtml(url): html=urllib.request. ...
Python爬虫---爬取数据(上)
又是女票,拿了3万多条的13年某地区的公司信息,但是三年过去了,工商局的注册信息发生了巨大变化,有的注册资本增加了,有的公司老板变多了,更有不少公司不存在了,因此,需要一份最新的信息以便于她进行使用. ...
python爬取大众点评评论_python爬虫抓取数据小试Python——爬虫抓取大众点评上的数据 - 电脑常识 - 服务器之家...
python爬虫抓取数据小试Python--爬虫抓取大众点评上的数据发布时间:2017-04-07
四小时学python爬虫爬取信息系列（第一天）
四小时学python爬虫爬取信息系列(第一天)(全是干货) 1.安装requests库(可以在电脑python,我是进入anaconda我建的虚拟环境) anaconda虚拟环境法流程: conda ...
python网易云_用python爬虫爬取网易云音乐
标签: 使用python爬虫爬取网易云音乐需要使用的模块只需要requests模块和os模块即可开始工作先去网易云音乐网页版找一下你想要听的歌曲点击进去.按键盘F12打开网页调试工具,点击Ne ...

【Python爬虫】：爬取干货集中营上的全部美女妹子（翻页处理）

【Python爬虫】：爬取干货集中营上的全部美女妹子（翻页处理）相关推荐

最新文章

热门文章