爬取今日头条街拍图的一次教训
本 来只要按照崔大大的步骤一步一步做下去,啥问题没有。
但我看完他的操作之后,自己操作了一遍。在街拍_头条搜索这个页面发起ajax请求并没有遇到什么问题,然后理所当然的访问其中一个子页面
什么都没有想,我就直接看了一下浏览器有没有ajax请求,看了一下ajax(XHR)的内容发现里面有图片地址,就开始分析请求的参数,有三个参数是一直变化的as、cp、_signature。接着在众多的js文件中搜索_signature这个,看了一个JavaScript代码,发现自己根本看不懂,其中这个印象深刻 (0,h.default)(i + “”) 这是个什么语法。。。
然后突然想了想,既然pc端的爬不了,能不能爬手机端的,就将谷歌浏览器改为手机访问,看了一下ajax内容,再看了一下请求参数,刷新了几遍,发现只有第一个parent_rid是变化的,而且看这变化好像是随机的,我就直接带入一个值,用requests构造url,这又出现了一个问题。
请求参数有两个sum:5,sum:15,code_id:14798012085000246,code_id:14798012085000246,这就不能直接构造字典了,因为字典的键不能重复。只能用urllib.parse来构建。urlencode和requests一样,只能将字典改为字符串列表,先将中文用urllib.parse.quote()变为url编码,再自己加等号,用‘&’.join()拼接一下(感觉这个也可以手工加上去)。之后发起请求,url为https://m.toutiao.com/i6589113068687458830/,得到了json数据,然后用re提取图片链接,把链接的图片下下来。
当我以为差不多完成了的时候,去看了一下下载的图片,这都是些什么图,我漂亮的小姐姐的高清大图呢。于是回浏览器看了一下ajax请求的内容,对比一下浏览器,原来ajax加载的都是热门推荐,并不是我要的内容。不在ajax里,应该在源代码里吧 ,requests发起请求将源代码保存到本地,搜索了一下图片链接的关键几个词,没有内容???这怎么回事。难道是js动态渲染的。。
在论坛里发个帖子,求助了一下,顿时无语,原来pc端子页面的响应内容里就已经包含了我要的内容,查看了一下电脑端的ajax,这居然也不是正文的内容。我绕了这么一大圈,是在干嘛。
哎,没有经验的小白真的难受。回头看了看崔大大的代码,这。。。
爬取今日头条街拍图的一次教训相关推荐
- python爬虫今日头条_python爬虫—分析Ajax请求对json文件爬取今日头条街拍美图
python爬虫-分析Ajax请求对json文件爬取今日头条街拍美图 前言 本次抓取目标是今日头条的街拍美图,爬取完成之后,将每组图片下载到本地并保存到不同文件夹下.下面通过抓取今日头条街拍美图讲解一 ...
- [Python3网络爬虫开发实战] --分析Ajax爬取今日头条街拍美图
[Python3网络爬虫开发实战] --分析Ajax爬取今日头条街拍美图 学习笔记--爬取今日头条街拍美图 准备工作 抓取分析 实战演练 学习笔记–爬取今日头条街拍美图 尝试通过分析Ajax请求来抓取 ...
- 利用Ajax爬取今日头条头像,街拍图片。关于崔庆才python爬虫爬取今日头条街拍内容遇到的问题的解决办法。
我也是初学爬虫,在看到崔庆才大佬的爬虫实战:爬取今日头条街拍美图时,发现有些内容过于陈旧运行程序时已经报错,网页的源代码早已不一样了.以下是我遇到的一些问题. 1.用开发者选项筛选Ajax文件时预览看 ...
- 爬取今日头条街拍图片
** *爬取今日头条街拍图片 * ** # coding=utf-8 import os import re import time from multiprocessing.pool import ...
- python爬取今日头条街拍,Python3今日头条街拍爬虫
学习了大才哥的在线视频教程,特来这里总结分享一下. 不同于上一篇糗事百科的爬虫,这里爬取今日头条街拍需要分析ajax请求得来的数据. 首先这里是爬取的起始页 可以看到当我们往下拉滚动条的时候,新数据是 ...
- 爬取今日头条街拍美图
相关背景: 本篇文章是基于爬虫实践课程–分析Ajax请求并抓取今日头条街拍美图 其实我最开始也只想在CSDN上面找一篇文章看看结果都是分析没有实操,没办法最后只能自己写了,本篇文章里面的问题也是我遇到 ...
- python爬取今日头条_Python3网络爬虫实战-36、分析Ajax爬取今日头条街拍美图
本节我们以今日头条为例来尝试通过分析 Ajax 请求来抓取网页数据的方法,我们这次要抓取的目标是今日头条的街拍美图,抓取完成之后将每组图片分文件夹下载到本地保存下来. 1. 准备工作 在本节开始之前请 ...
- Python爬虫 | 批量爬取今日头条街拍美图
点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今日鸡汤浮云一别后,流水十年间. 专栏作者:霖he ...
- 爬取今日头条街拍美女图片
爬取今日头条美女图片需要分析Ajax请求 首先打开网址:https://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8D 返回的数据以及每个data ...
最新文章
- C++_泛型编程与标准库(三)
- alias怎么每次登陆都保存_alias命令使用说明
- 软考新思维--2017年上半年信息系统项目管理师上午试题分析与答案(试题6-10题)...
- 数据库显示日期时仅仅显示“年-月-日”的问题
- 计算机2级什么时间考,全国计算机2级考试什么时间出成绩单
- Java并发编程实战————Executor框架与任务执行
- oracle 写declare例子
- CentOS7环境下搭建flume
- 【高数】数学符号及读法大全and数学运算符号及含义
- 金融市场:最全的外汇平台资料大全(包括开户金额、点差、特色!)
- qq空间相册查看器_一刻相册相册怎么样?一刻相册和其他相册对比
- ubuntu 显示网速 16 18 20 都可以
- 计算机专业考信息安全研究生,我是计算机科学与技术专业的学生,想考信息安全的研究生,我们本专业涉及的知识主要是计算机的组成原理,...
- Ubuntu 安装字体
- 190428多线进程编程
- 20201227英语单词学习(仅供自己记录)
- 数据仓库-Hive(一)
- Hadoop(yarn)集群安装
- c++知识点大全(基础与提高)
- 统计学——中位数、众数
热门文章
- 我在CSDN开博啦!
- 荣耀v30鸿蒙5g荣耀有隔空操作吗,荣耀V30 Pro用了十天,这些功能让人眼前一亮
- 【srs4】借助工具解析srs分发的来自rtc的flv
- java编程怎样统计单词个数_用java 编写一个程序,接受用户输入的一段英文文字,统计出其中的字符个数、单词个数和句子的个数。...
- Redis应用场景-转载
- FreeRTOS基于任务通知的信号量 事件标志组 消息邮箱
- select or and
- 知识点总结Day02——JAVA类型转换、运算符、方法入门及JShell
- 来,认识一下 JJK
- 山东企业涉密信息系统集成具体条件