本 来只要按照崔大大的步骤一步一步做下去,啥问题没有。

但我看完他的操作之后,自己操作了一遍。在街拍_头条搜索这个页面发起ajax请求并没有遇到什么问题,然后理所当然的访问其中一个子页面

什么都没有想,我就直接看了一下浏览器有没有ajax请求,看了一下ajax(XHR)的内容发现里面有图片地址,就开始分析请求的参数,有三个参数是一直变化的as、cp、_signature。接着在众多的js文件中搜索_signature这个,看了一个JavaScript代码,发现自己根本看不懂,其中这个印象深刻 (0,h.default)(i + “”) 这是个什么语法。。。

然后突然想了想,既然pc端的爬不了,能不能爬手机端的,就将谷歌浏览器改为手机访问,看了一下ajax内容,再看了一下请求参数,刷新了几遍,发现只有第一个parent_rid是变化的,而且看这变化好像是随机的,我就直接带入一个值,用requests构造url,这又出现了一个问题。

请求参数有两个sum:5,sum:15,code_id:14798012085000246,code_id:14798012085000246,这就不能直接构造字典了,因为字典的键不能重复。只能用urllib.parse来构建。urlencode和requests一样,只能将字典改为字符串列表,先将中文用urllib.parse.quote()变为url编码,再自己加等号,用‘&’.join()拼接一下(感觉这个也可以手工加上去)。之后发起请求,url为https://m.toutiao.com/i6589113068687458830/,得到了json数据,然后用re提取图片链接,把链接的图片下下来。

当我以为差不多完成了的时候,去看了一下下载的图片,这都是些什么图,我漂亮的小姐姐的高清大图呢。于是回浏览器看了一下ajax请求的内容,对比一下浏览器,原来ajax加载的都是热门推荐,并不是我要的内容。不在ajax里,应该在源代码里吧 ,requests发起请求将源代码保存到本地,搜索了一下图片链接的关键几个词,没有内容???这怎么回事。难道是js动态渲染的。。

在论坛里发个帖子,求助了一下,顿时无语,原来pc端子页面的响应内容里就已经包含了我要的内容,查看了一下电脑端的ajax,这居然也不是正文的内容。我绕了这么一大圈,是在干嘛。

哎,没有经验的小白真的难受。回头看了看崔大大的代码,这。。。

爬取今日头条街拍图的一次教训相关推荐

  1. python爬虫今日头条_python爬虫—分析Ajax请求对json文件爬取今日头条街拍美图

    python爬虫-分析Ajax请求对json文件爬取今日头条街拍美图 前言 本次抓取目标是今日头条的街拍美图,爬取完成之后,将每组图片下载到本地并保存到不同文件夹下.下面通过抓取今日头条街拍美图讲解一 ...

  2. [Python3网络爬虫开发实战] --分析Ajax爬取今日头条街拍美图

    [Python3网络爬虫开发实战] --分析Ajax爬取今日头条街拍美图 学习笔记--爬取今日头条街拍美图 准备工作 抓取分析 实战演练 学习笔记–爬取今日头条街拍美图 尝试通过分析Ajax请求来抓取 ...

  3. 利用Ajax爬取今日头条头像,街拍图片。关于崔庆才python爬虫爬取今日头条街拍内容遇到的问题的解决办法。

    我也是初学爬虫,在看到崔庆才大佬的爬虫实战:爬取今日头条街拍美图时,发现有些内容过于陈旧运行程序时已经报错,网页的源代码早已不一样了.以下是我遇到的一些问题. 1.用开发者选项筛选Ajax文件时预览看 ...

  4. 爬取今日头条街拍图片

    ** *爬取今日头条街拍图片 * ** # coding=utf-8 import os import re import time from multiprocessing.pool import ...

  5. python爬取今日头条街拍,Python3今日头条街拍爬虫

    学习了大才哥的在线视频教程,特来这里总结分享一下. 不同于上一篇糗事百科的爬虫,这里爬取今日头条街拍需要分析ajax请求得来的数据. 首先这里是爬取的起始页 可以看到当我们往下拉滚动条的时候,新数据是 ...

  6. 爬取今日头条街拍美图

    相关背景: 本篇文章是基于爬虫实践课程–分析Ajax请求并抓取今日头条街拍美图 其实我最开始也只想在CSDN上面找一篇文章看看结果都是分析没有实操,没办法最后只能自己写了,本篇文章里面的问题也是我遇到 ...

  7. python爬取今日头条_Python3网络爬虫实战-36、分析Ajax爬取今日头条街拍美图

    本节我们以今日头条为例来尝试通过分析 Ajax 请求来抓取网页数据的方法,我们这次要抓取的目标是今日头条的街拍美图,抓取完成之后将每组图片分文件夹下载到本地保存下来. 1. 准备工作 在本节开始之前请 ...

  8. Python爬虫 | 批量爬取今日头条街拍美图

    点击上方"Python爬虫与数据挖掘",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今日鸡汤浮云一别后,流水十年间. 专栏作者:霖he ...

  9. 爬取今日头条街拍美女图片

    爬取今日头条美女图片需要分析Ajax请求 首先打开网址:https://www.toutiao.com/search/?keyword=%E8%A1%97%E6%8B%8D 返回的数据以及每个data ...

最新文章

  1. C++_泛型编程与标准库(三)
  2. alias怎么每次登陆都保存_alias命令使用说明
  3. 软考新思维--2017年上半年信息系统项目管理师上午试题分析与答案(试题6-10题)...
  4. 数据库显示日期时仅仅显示“年-月-日”的问题
  5. 计算机2级什么时间考,全国计算机2级考试什么时间出成绩单
  6. Java并发编程实战————Executor框架与任务执行
  7. oracle 写declare例子
  8. CentOS7环境下搭建flume
  9. 【高数】数学符号及读法大全and数学运算符号及含义
  10. 金融市场:最全的外汇平台资料大全(包括开户金额、点差、特色!)
  11. qq空间相册查看器_一刻相册相册怎么样?一刻相册和其他相册对比
  12. ubuntu 显示网速 16 18 20 都可以
  13. 计算机专业考信息安全研究生,我是计算机科学与技术专业的学生,想考信息安全的研究生,我们本专业涉及的知识主要是计算机的组成原理,...
  14. Ubuntu 安装字体
  15. 190428多线进程编程
  16. 20201227英语单词学习(仅供自己记录)
  17. 数据仓库-Hive(一)
  18. Hadoop(yarn)集群安装
  19. c++知识点大全(基础与提高)
  20. 统计学——中位数、众数

热门文章

  1. 我在CSDN开博啦!
  2. 荣耀v30鸿蒙5g荣耀有隔空操作吗,荣耀V30 Pro用了十天,这些功能让人眼前一亮
  3. 【srs4】借助工具解析srs分发的来自rtc的flv
  4. java编程怎样统计单词个数_用java 编写一个程序,接受用户输入的一段英文文字,统计出其中的字符个数、单词个数和句子的个数。...
  5. Redis应用场景-转载
  6. FreeRTOS基于任务通知的信号量 事件标志组 消息邮箱
  7. select or and
  8. 知识点总结Day02——JAVA类型转换、运算符、方法入门及JShell
  9. 来,认识一下 JJK
  10. 山东企业涉密信息系统集成具体条件