一.确定爬取思路
今天突发奇想,能不能使用python爬虫来爬取一些妹子图片呢,于是摩拳擦掌开始干了起来。首先打开python基础教程网页htttps://gank.io 当中的妹子专栏,

发现里面全是妹子,如下所示:

网址如下所示:

https://gank.io/special/Girl

翻到最下面发现按钮,一共有十个分页,如下所示:

因此我点击了第二个分页,进去查看网页,看点击之后的网址会不会发生改变,如果网址没有发生改变。说明这是一个静态网页,如果改变则说明点击按钮触发了ajax请求,则有可能是get也有可能是post请求。

后来观察发现网址变成了:

https://gank.io/special/Girl/page/2
翻页到第三页,网址则变成了:

https://gank.io/special/Girl/page/3
因此我们肯定是加载的静态网页,因此我们进行翻页就太简单了,只需要变化请求网页的网址即可。于是我们在每一个网页当中查看当前网址的源代码,找到图片源在哪儿:

如下图所示:

这样我们就可以确定图片的url了,在爬取的时候在后面加上jpg的后缀即可。

二.开始编写代码
这样代码就很简单了,如下所示:

import requests
import re
import time
from pandas import Series,DataFrame
#1.编写爬取美女土图片
headers={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/85.0.4183.83 Safari/537.36'
}page_text=''
print("开始网络爬虫!!")
for i in range(1,10):#对指定url发起的请求url是携带参数的url = 'https://gank.io/special/Girl/page/'url=url+str(i)print(url)response=requests.get(url=url,headers=headers)page_text=page_text+'\n'+response.textprint("这是第{}轮爬取".format(i))#print(page_text)page_text=page_text.split("\n")
#               style="background-image:url(
# 这里进行正则匹配
url_list=[]
for i in page_text:if re.match('               style="background-image:url',i):url_list.append(i)else:passi=0
while i<len(url_list):url_list[i]='https://gank.io'+eval(url_list[i].split("(")[1].split(")")[0])i+=1#开始下载图片,每下载成功一次图片,就会显示下载成功
for i in url_list:image_data=requests.get(i,headers=headers).contentimage_name='/'+i.split("/")[4]image_path='./'+image_name+'.jpg'with open(image_path,'wb') as fp:fp.write(image_data)print("{} : 下载成功!".format(image_name))

得解!最后在文件夹里的图片如下所示:

【Python爬虫】:爬取干货集中营上的全部美女妹子(翻页处理)相关推荐

  1. Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中

    Python爬虫:爬取知乎上的视频,并把下载链接保存到md文件中 1.需要的Python模块 主要是requests模块,用于得到的网页的数据 安装命令为:pip install requests 2 ...

  2. 把url地址复制到粘贴板上_写个简单的python爬虫爬取堆糖上漂亮的小姐姐

    简单的爬虫入门实战 最近刚学了python的爬虫,刚好可以用来爬取漂亮的图片作为壁纸,网上美图网站有很多,比如:花瓣,堆糖.它们请求图片数据的方式差不多类似,都是通过用户不断下滑加载新的图片,这种请求 ...

  3. 【爬虫】应用Python爬虫爬取豆瓣租房上的帖子信息

    GitHub项目地址:https://github.com/Donvink/Spider.BC 哔哩哔哩代码讲解:https://b23.tv/waSfUa CSDN博客地址:https://blog ...

  4. python爬虫——爬取拉勾上的职位信息

    爬取拉勾网站岗位数据 1.调用网页 查找网页链接规律 写一个for循环,爬取每一个网页的职位信息 def down():for i in range(1,4):if i == 1:strUrl = & ...

  5. python爬虫网页中的图片_Python爬虫爬取一个网页上的图片地址实例代码

    本文实例主要是实现爬取一个网页上的图片地址,具体如下. 读取一个网页的源代码: import urllib.request def getHtml(url): html=urllib.request. ...

  6. Python爬虫---爬取数据(上)

    又是女票,拿了3万多条的13年某地区的公司信息,但是三年过去了,工商局的注册信息发生了巨大变化,有的注册资本增加了,有的公司老板变多了,更有不少公司不存在了,因此,需要一份最新的信息以便于她进行使用. ...

  7. python爬取大众点评评论_python爬虫抓取数据 小试Python——爬虫抓取大众点评上的数据 - 电脑常识 - 服务器之家...

    python爬虫抓取数据 小试Python--爬虫抓取大众点评上的数据 发布时间:2017-04-07

  8. 四小时学python爬虫爬取信息系列(第一天)

    四小时学python爬虫爬取信息系列(第一天)(全是干货) 1.安装requests库(可以在电脑python,我是进入anaconda我建的虚拟环境) anaconda虚拟环境法流程: conda ...

  9. python网易云_用python爬虫爬取网易云音乐

    标签: 使用python爬虫爬取网易云音乐 需要使用的模块 只需要requests模块和os模块即可 开始工作 先去网易云音乐网页版找一下你想要听的歌曲点击进去.按键盘F12打开网页调试工具,点击Ne ...

最新文章

  1. TensorFlow csv读取文件数据(代码实现)
  2. linux php ftp扩展,Linux中如何安装 PHP 扩展?(方法介绍)
  3. python打开一个文件-python下几种打开文件的方式
  4. 爬虫普及,Web安全更需注意
  5. 【转载】现代浏览器的工作原理
  6. 建立神经网络来预测贷款风险
  7. 2021-2025年中国电子台秤行业市场供需与战略研究报告
  8. matlab复杂网络仿真,matlab在复杂网络上的应用
  9. ROM存储1/4周期正弦信号构造DDS
  10. 数据库基本----SQL语句大全(转载)
  11. R实战 Nomogram(诺莫图列线图)及其Calibration校准曲线绘制
  12. 上云十年:阿里云的奇幻漂流
  13. 【高等数学】微分方程
  14. 百度云链接使用迅雷下载时提示有误的问题解决
  15. Android百度地图SDK:隐藏比例尺,隐藏百度LOGO,隐藏缩放控件
  16. 人类一败涂地做图教程_人类一败涂地-怎么制作地图-地图制作教程详细入门级...
  17. Progress ThemeBuilder updated Crack
  18. 1128_AURIX_TC275的基本参数了解
  19. 链上天眼Pro2.0正式上线
  20. 云计算机社团,【社联】云社团丨以声传情,以舞会友(第一期)

热门文章

  1. python素数最优算法_几种简单的求素数算法的复杂度分析
  2. Centos 安装FFMPEG
  3. AUTOSAR SecOC 同步异步处理方式分析
  4. 4k视频写入速度要求_市面常见存储卡的读写速度对比测试
  5. Android屏幕适配解决方案
  6. 实习秋招C++知识点总结
  7. 摄影测量(三):单张像片解析基础
  8. js replace方法
  9. 基于JAVA校园摄影爱好者交流网站计算机毕业设计源码+系统+数据库+lw文档+部署
  10. 手机游戏连接计算机屏幕,推荐一种将手机屏幕投影到计算机大屏幕的软件-PowerMirror...