自从接触python以后就想着爬pixiv,之前因为梯子有点问题就一直搁置,最近换了个梯子就迫不及待试了下。

爬虫无非request获取html页面然后用正则表达式或者beautifulsoup之类现成工具截取我们想要的页面,pixiv也不例外。

首先我们来实现模拟登陆,虽然大多数情况不需要我们实现模拟登录,但如果你是会员之类的,登录和不登录网页就有区别。思路是登录时抓包抓到post请求,看pixiv构建的post的数据表格是什么格式,我们根据这个格式构建form,然后调用post方法去请求,再保存到session中,之后访问相关页面用session替代requests即可。

可以看到pixiv登录的网址如下,直接复制:

抓包找到提交数据的请求:

可以看到表单数据主要是这几个,经过几次尝试,我们在模拟的时候只需要构建password、pixiv_id、post_key再加上一个return_to(第二张)即可。pixiv_id就是我们的账号,password是密码,return_to照着填就行,但这个post_key却是随机的。

但我们也有办法,它是我们每次访问登录页面时动态生成的,这就好办了,再登录前先爬取一次登录前的页面,找到postkey。

看到下图红圈里面:

那就可以直接正则爬取:

def get_postkey():login_url='https://accounts.pixiv.net/login?return_to=https%3A%2F%2Fwww.pixiv.net%2F&lang=zh&source=pc&view_type=page'response=requests.get(url=login_url,headers=headers,verify=False)html=response.text# print(html)postkey=re.findall('"pixivAccount.postKey":"(.*?)","pixivAccount.recaptchaEnterpriseCheckboxSiteKey"',html)return postkey[0]

然后我们就可以构建数据包:

pixiv_id="账号" # 你的pixiv账号
password='xxxxx' # 你的pixiv密码
return_to='https://www.pixiv.net/'
post_key=get_postkey()

实例化一个session对象,然后post提交就能完成模拟登陆:

session=requests.Session()form_data={'pixiv_id':pixiv_id,'password':password,'return_to':return_to,'post_key':post_key
}
login_url1='https://accounts.pixiv.net/login?return_to=https%3A%2F%2Fwww.pixiv.net%2F&lang=zh&source=pc&view_type=page'
res=session.post(url=login_url1,headers=headers,data=form_data)
# 至此模拟登录成功

到此模拟登录就成功了,接下来就是爬我们想要的图片,以爬排行榜为例:

打开排行榜页面,鼠标悬停图片,右键检查,可以找到对应的代码位置:

找到每张图片的相似结构,我们可以用BeautifulSoup 找到节点,然后正则爬我们想要的网址:

先找到包含每张图片各种信息的节点,通过类名查找,然后对于每一个节点进行正则提取,提取出对应图片的下载链接,不过需要特别注意的是,pixiv直接显示的图片源是骗你的,真正的图片链接的形式应该是:

https://i.pximg.net/img-original/img/xxxx/xx/xx/xx/xx/xx/xxxxxxxx_p0.png

这样的,直接把这个网址复制网页栏访问会显示403,因为pixiv限制了必须从pixiv网页点进这个网址,所以我们首先必须headers构建refer-to,然后通过排行榜提取到信息后还需要自己手动构建正确的网址:

headers = {'Referer': 'https://www.pixiv.net/',}
def get_accurate_url(url):urll='https://i.pximg.net/img-original/img/' + str(url) + "_p0.jpg"return urll

这里的代码偷了个懒,全部当作jpg来处理,下载的时候再处理png的情况

下载的具体函数,我们对每一个网址的后续部分提取出来作名字,随机睡眠1到4秒防止pixiv认出我们是爬虫把我们ip给封了,之后就是对网址进行访问下载,这里如果访问返回的状态码是404说明它其实是个png格式的图片,所以对png格式的文件重新构建正确的网址即可:

def download(list,filename):i=1for url in list:pic_name=re.findall("https://i.pximg.net/img-original/img/(.*?)_p0.jpg",str(url))pic_name1=str(pic_name[0]).replace("/",".")r = random.randint(1, 4)time.sleep(r)response=requests.get(url=url,headers=headers,verify=False)if(response.status_code==404):the_url='https://i.pximg.net/img-original/img/' + str(pic_name[0]) + "_p0.png"response = requests.get(url=the_url, headers=headers, verify=False)with open(path + filename + '/' + str(pic_name1) + '.png', 'wb') as f:f.write(response.content)print("第" + str(i) + "张图片已下载成功!!")else:with open(path + filename + '/' + str(pic_name1) + '.jpg', 'wb') as f:f.write(response.content)print("第" + str(i) + "张图片已下载成功!!")i+=1

最后就是成功下载排行榜的图片:

另外我在爬的时候发现pixiv很多网页获取时会隐藏body部分的内容,包括但不限于各个tag的网页和单个id图片的网页,一开始以为是没有登录的原因,但是实现登录后发现依然如此,推测可能是body部分内容是子网页或者javsscript生成之类的,反正前端有一万种方法达成这个目的,这个之后再研究怎么爬。

python爬虫:爬取pixiv图片相关推荐

  1. python爬虫,爬取下载图片

    python爬虫,爬取下载图片 分别引入以下三个包 from urllib.request import urlopen from bs4 import BeautifulSoup import re ...

  2. Python爬虫爬取相关图片

    简要的实现实现Python爬虫爬取百度贴吧页面上的图片,下面的网页就是本篇博客所要爬的网页,当然看到的只是其中的一部分图片,是所要爬取的页面, 而下图则是最终的爬取的图片: 接下来就简要的讲讲爬取的整 ...

  3. python爬虫爬取网页图片_Python爬虫:爬取网页图片

    先分析查找要爬取图片的路径 在浏览器F12 审查元素 整体实现代码 # -- coding:UTF-8 -- import requests from bs4 import BeautifulSoup ...

  4. python爬虫爬取百度图片总结_python爬虫如何批量爬取百度图片

    当我们想要获取百度图片的时候,面对一张张图片,一次次的点击右键下载十分麻烦.python爬虫可以实现批量下载,根据我们下载网站位置.图片位置.图片下载数量.图片下载位置等需求进行批量下载,本文演示py ...

  5. python爬虫爬取百度图片,python爬虫篇2:爬取百度图片

    入门级 import requests import re import os from urllib import error def main(): dirPath = "E:\pyth ...

  6. 上手快!!福利局!新手如何使用python爬虫爬取网页图片(使用正则进行数据解析)当然这个新手是我自己

    作为一个python新入门小白,突然就想发个博客,一方面为了记录学习历程,一方面能分享给新入门的同学经验,更多的是想和大家一起学习和交流.以下是我以小白的角度分享的爬虫的相关知识和一个简单的爬取网页图 ...

  7. 利用python爬虫爬取斗鱼图片(简单详细)

    关于 在一个安静的夜晚,我缓慢的打开了电脑,望着已经睡着的父母,我轻轻的把门关上,看着斗鱼颜值主播的魅力,我不尽感叹,要是每天都可以不需要那么麻烦的去看那该有多好! 于是我想起了最近刚学的爬虫,嘴角露 ...

  8. Python爬虫爬取src图片

    Python爬虫爬取图片 需要用到的库: os time request lxml 代码源码如下: import os import time import requests from lxml im ...

  9. 超详细解析python爬虫爬取京东图片

    超详细图片爬虫实战 实例讲解(京东商城手机图片爬取) 1.创建一个文件夹来存放你爬取的图片 2.第一部分代码分析 3.第二部分代码分析 完整的代码如下所示: 升级版代码: 爬取过程中首先你需要观察在手 ...

  10. python爬虫爬取4K图片实例

    爬取目标网站https://pic.netbian.com/4kfengjing/index.html 之前写的时候发现爬取的图片都是缩略图,不是原图4k的,经过改良得以实现 思路: 话不多说,详细思 ...

最新文章

  1. JSON与JAVA数据的转换
  2. vue 自定义指令实现,滚动条百分比进度条。
  3. ACL 2019 | 巧用文本语境信息:基于上下文感知的向量优化
  4. 关于WebService中用到的QName详解
  5. RabbitMQ惰性队列
  6. 64 源码_【ClickHouse内核】源码阅读策略
  7. c51 嵌入汇编语言,在C51中嵌入汇编
  8. 代码合并工具_作为程序员你必须知道的几款代码比较工具
  9. 州的先生 python界面 代码完整版(注释)
  10. Shell 脚本调用另一个脚本的三种方法
  11. 【比赛】NOIP2017 列队
  12. 僵化封闭的苹果:鼠标不支持右键,键盘没有DEL键
  13. CorelDRAWX8试用到期了怎么免费使用?cdrX8
  14. navicat建mysql数据库密码_Navicat修改MySQL数据库密码的多种方法
  15. C语言自学笔记(10)
  16. AUTOSAR基础篇之StbM
  17. [Sencha ExtJS amp; Touch] 在Sencha(Extjs/Touch)应用程序中使用plugins(插件)和mixins(混入)...
  18. Java面试相关问题以及解析
  19. 语c语言描写,【自由の翼】语c介绍
  20. Linux使用nvida-smi查看GPU类型

热门文章

  1. 搭搭云-超级应用平台 与JNPF Java多用户商城系统源码
  2. Excel经纬度转Shp
  3. dag执行 java实现_如何调用DAG拓扑重组?
  4. 23款精美的HTML5网站模板免费下载
  5. 基于opencv的四轴飞行器寻迹系统(一)——linux下opencv的安装
  6. 【转帖】噪声库(noiseX-92)
  7. ATA注会考试系统配置
  8. 什么是项目管理资格认证
  9. 【源码】FieldTrip:MEG和EEG分析的MATLAB工具箱
  10. linux查看磁盘硬件日志,Linux下如何查看硬件信息