请求头Headers提供了关于请求、响应或其他发送实体的信息。

下面以某书上的教程为例,查找正确的请求头。

通过chrome浏览器的”检查“命令,单击Network选项,在左侧的资源中找到需要请求的网页,单击需要请求的网页,在Headers中可以看到Requests Headers的详细信息。

找不到的话,记得刷新网页 。标黄为有效信息

    1. Request URL:

      http://www.santostang.com/

    2. Request Method:

      GET

    3. Status Code:

      200 OK

    4. Remote Address:

      118.25.212.192:80

    5. Referrer Policy:

      strict-origin-when-cross-origin

  1. Response HeadersView source
    1. Cache-Control:

      no-store, no-cache, must-revalidate

    2. Connection:

      keep-alive

    3. Content-Encoding:

      gzip

    4. Content-Type:

      text/html; charset=UTF-8

    5. Date:

      Mon, 06 Dec 2021 11:35:17 GMT

    6. Expires:

      Thu, 19 Nov 1981 08:52:00 GMT

    7. Pragma:

      no-cache

    8. Server:

      nginx

    9. Transfer-Encoding:

      chunked

    10. Vary:

      Accept-Encoding

  2. Request HeadersView source
    1. Accept:

      text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9

    2. Accept-Encoding:

      gzip, deflate

    3. Accept-Language:

      zh-CN,zh;q=0.9

    4. Cache-Control:

      max-age=0

    5. Connection:

      keep-alive

    6. Cookie:

      trc_cookie_storage=taboola%2520global%253Auser-id%3Dbd60449e-17eb-4a23-8440-d31ae8024b66-tuct8a6187d; PHPSESSID=038ojd9o1c1fi0egnva0t29oc7; Hm_lvt_752e310cec7906ba7afeb24cd7114c48=1638699739,1638787830; Hm_lpvt_752e310cec7906ba7afeb24cd7114c48=1638790509

    7. Host:

      www.santostang.com

    8. Upgrade-Insecure-Requests:

      1

    9. User-Agent:

      Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/94.0.4606.54 Safari/537.36

提取请求头中的重要的部分,可以把代码修改为第一篇博文中的那样。

python爬虫学习-定制请求头相关推荐

  1. Python爬虫伪装,请求头User-Agent池,和代理IP池搭建使用

    一.前言 在使用爬虫的时候,很多网站都有一定的反爬措施,甚至在爬取大量的数据或者频繁地访问该网站多次时还可能面临ip被禁,所以这个时候我们通常就可以找一些代理ip,和不用的浏览器来继续爬虫测试.下面就 ...

  2. python爬虫快速添加请求头、随机生成user-agent

    一.快速添加请求头 import re # 下方引号内添加替换掉请求头内容 headers_str = """ accept: text/html,application ...

  3. python伪造请求头x-forwarded-for的作用_Pyspider中给爬虫伪造随机请求头的实例

    Pyspider 中采用了 tornado 库来做 http 请求,在请求过程中可以添加各种参数,例如请求链接超时时间,请求传输数据超时时间,请求头等等,但是根据pyspider的原始框架,给爬虫添加 ...

  4. Python爬虫学习①:

    Python爬虫学习①: 前言:本文系根据唐松<Python网络爬虫从入门到实践>书籍进行学习和整理 Python 爬虫的流程分为了三部分 ①:获取网页:给网址发送一个请求,该网址返回整个 ...

  5. 从入门到入土:Python爬虫学习|实例练手|爬取百度产品列表|Xpath定位标签爬取|代码注释详解

    此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...

  6. Python爬虫学习框架介绍

    对于初学者来说,摸索清楚一个领域的知识体系往往比单纯学习某个技术要重要得多,因为技术总会跟随时代发生快速变化,而知识体系往往变化较小,今天我们以自学的角度来了解一下Python爬虫的知识体系吧. 一. ...

  7. python爬虫学习14

    python爬虫学习14 这里写目录标题 python爬虫学习14 get 请求 简单的GET请求 附加信息的GET请求 返回值的类型 抓取网页 抓取二进制数据 添加请求头 get 请求 简单的GET ...

  8. 铁憨憨的Python 爬虫学习 Python_Learn

    通过网课和万能的B站学习 Python 和爬虫(本文基本是对视频内程序和内容的笔记内容) B站 Python 爬虫学习链接 Python 学习网络爬虫主要分3个大的版块:明确目标,抓取,分析,存储 明 ...

  9. Python爬虫学习笔记 -- 爬取糗事百科

    Python爬虫学习笔记 -- 爬取糗事百科 代码存放地址: https://github.com/xyls2011/python/tree/master/qiushibaike 爬取网址:https ...

最新文章

  1. Kafka-manager启动命令
  2. Linq to SQL Like Operator(转)
  3. 【阿里云产品公测】大数据下精确快速搜索OpenSearch
  4. webpack二(以webpack4.x起步)
  5. ionic3 调用本地相册并上传图片
  6. linux 内核 丢弃分片包,LINUX内核关于IP分片重组问题请教
  7. repeater的嵌套(转+总结)[http://www.cnblogs.com/esshs/archive/2005/04/07/132825.html]
  8. Cycle-2(循环)
  9. 把结构用二进制方式写入文件,并读出来[转]
  10. 动态加载JavaScript文件
  11. .NET Core中Quartz.NET的依赖注入
  12. JDK,SDK,API之间的概念汇总
  13. Flex 与.net 进行通信可以通过Fluorine(fluorinefx),WebORB For .net,Socket
  14. 进程隐藏、驱动加载的小工具...
  15. excel熵值法计算权重_小技巧1:Excel进行熵值法计算权重,查收一下!
  16. python字典第一个元素_如何获取python字典中的第一个值
  17. D2RQ 的安装和基本使用
  18. CodeForces 1023G. Pisces
  19. 国内就能读的中国人民大学与加拿大女王大学金融硕士,为职业发展的下一个阶段积蓄能量
  20. diy nas配置推荐2020_NAS的DIY配置

热门文章

  1. html实现读取读卡器,如何在web浏览器页面使用IC卡读卡器并且兼容所有浏览器
  2. Java实现 LeetCode 417 太平洋大西洋水流问题
  3. 图解ARP协议(三)ARP防御篇-如何揪出“内鬼”并“优雅的还手”
  4. 硬盘和显卡的访问与控制
  5. python 导数 vector_Python。Scipy数值导数
  6. treecnt 51Nod - 1677
  7. 为什么我们要坚持写博客?
  8. spring源码解析之IOC核心体系结构
  9. 写给自己:入职两个月的收获与变化
  10. 寻找勾股数的一种极快的算法