python爬虫学习-定制请求头
请求头Headers提供了关于请求、响应或其他发送实体的信息。
下面以某书上的教程为例,查找正确的请求头。
通过chrome浏览器的”检查“命令,单击Network选项,在左侧的资源中找到需要请求的网页,单击需要请求的网页,在Headers中可以看到Requests Headers的详细信息。
找不到的话,记得刷新网页 。标黄为有效信息
Request URL:
http://www.santostang.com/
Request Method:
GET
Status Code:
200 OK
Remote Address:
118.25.212.192:80
Referrer Policy:
strict-origin-when-cross-origin
- Response HeadersView source
Cache-Control:
no-store, no-cache, must-revalidate
Connection:
keep-alive
Content-Encoding:
gzip
Content-Type:
text/html; charset=UTF-8
Date:
Mon, 06 Dec 2021 11:35:17 GMT
Expires:
Thu, 19 Nov 1981 08:52:00 GMT
Pragma:
no-cache
Server:
nginx
Transfer-Encoding:
chunked
Vary:
Accept-Encoding
- Request HeadersView source
Accept:
text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
Accept-Encoding:
gzip, deflate
Accept-Language:
zh-CN,zh;q=0.9
Cache-Control:
max-age=0
Connection:
keep-alive
Cookie:
trc_cookie_storage=taboola%2520global%253Auser-id%3Dbd60449e-17eb-4a23-8440-d31ae8024b66-tuct8a6187d; PHPSESSID=038ojd9o1c1fi0egnva0t29oc7; Hm_lvt_752e310cec7906ba7afeb24cd7114c48=1638699739,1638787830; Hm_lpvt_752e310cec7906ba7afeb24cd7114c48=1638790509
Host:
www.santostang.com
Upgrade-Insecure-Requests:
1
User-Agent:
Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.54 Safari/537.36
提取请求头中的重要的部分,可以把代码修改为第一篇博文中的那样。
python爬虫学习-定制请求头相关推荐
- Python爬虫伪装,请求头User-Agent池,和代理IP池搭建使用
一.前言 在使用爬虫的时候,很多网站都有一定的反爬措施,甚至在爬取大量的数据或者频繁地访问该网站多次时还可能面临ip被禁,所以这个时候我们通常就可以找一些代理ip,和不用的浏览器来继续爬虫测试.下面就 ...
- python爬虫快速添加请求头、随机生成user-agent
一.快速添加请求头 import re # 下方引号内添加替换掉请求头内容 headers_str = """ accept: text/html,application ...
- python伪造请求头x-forwarded-for的作用_Pyspider中给爬虫伪造随机请求头的实例
Pyspider 中采用了 tornado 库来做 http 请求,在请求过程中可以添加各种参数,例如请求链接超时时间,请求传输数据超时时间,请求头等等,但是根据pyspider的原始框架,给爬虫添加 ...
- Python爬虫学习①:
Python爬虫学习①: 前言:本文系根据唐松<Python网络爬虫从入门到实践>书籍进行学习和整理 Python 爬虫的流程分为了三部分 ①:获取网页:给网址发送一个请求,该网址返回整个 ...
- 从入门到入土:Python爬虫学习|实例练手|爬取百度产品列表|Xpath定位标签爬取|代码注释详解
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- Python爬虫学习框架介绍
对于初学者来说,摸索清楚一个领域的知识体系往往比单纯学习某个技术要重要得多,因为技术总会跟随时代发生快速变化,而知识体系往往变化较小,今天我们以自学的角度来了解一下Python爬虫的知识体系吧. 一. ...
- python爬虫学习14
python爬虫学习14 这里写目录标题 python爬虫学习14 get 请求 简单的GET请求 附加信息的GET请求 返回值的类型 抓取网页 抓取二进制数据 添加请求头 get 请求 简单的GET ...
- 铁憨憨的Python 爬虫学习 Python_Learn
通过网课和万能的B站学习 Python 和爬虫(本文基本是对视频内程序和内容的笔记内容) B站 Python 爬虫学习链接 Python 学习网络爬虫主要分3个大的版块:明确目标,抓取,分析,存储 明 ...
- Python爬虫学习笔记 -- 爬取糗事百科
Python爬虫学习笔记 -- 爬取糗事百科 代码存放地址: https://github.com/xyls2011/python/tree/master/qiushibaike 爬取网址:https ...
最新文章
- Kafka-manager启动命令
- Linq to SQL Like Operator(转)
- 【阿里云产品公测】大数据下精确快速搜索OpenSearch
- webpack二(以webpack4.x起步)
- ionic3 调用本地相册并上传图片
- linux 内核 丢弃分片包,LINUX内核关于IP分片重组问题请教
- repeater的嵌套(转+总结)[http://www.cnblogs.com/esshs/archive/2005/04/07/132825.html]
- Cycle-2(循环)
- 把结构用二进制方式写入文件,并读出来[转]
- 动态加载JavaScript文件
- .NET Core中Quartz.NET的依赖注入
- JDK,SDK,API之间的概念汇总
- Flex 与.net 进行通信可以通过Fluorine(fluorinefx),WebORB For .net,Socket
- 进程隐藏、驱动加载的小工具...
- excel熵值法计算权重_小技巧1:Excel进行熵值法计算权重,查收一下!
- python字典第一个元素_如何获取python字典中的第一个值
- D2RQ 的安装和基本使用
- CodeForces 1023G. Pisces
- 国内就能读的中国人民大学与加拿大女王大学金融硕士,为职业发展的下一个阶段积蓄能量
- diy nas配置推荐2020_NAS的DIY配置