之前的文章中讲到,有很多网站为了防止爬虫程序爬网站造成网站瘫痪,所以我们的程序在模拟浏览器访问这些网站时,需要携带一些headers头部信息才能访问,最常见的有User-Agent、referer、cookie参数。那么针对cookie参数的处理 ,有以下两种方式。

直接携带cookie请求url地址

cookie放在headers中。这种方式与headers中携带User-Agent一样,只需要将cookie字符串放在headers字典中即可。

headers = {'User-Agent': '......',

'Cookie':'cookie字符串'}

requests.post(url, date, headers=headers)

cookie字典传给cookies参数。这种方式需要新增一个cookie的字典,再将该参数传给cookies参数。写一个简单的例子:Cookie:OUTFOX_SEARCH_USER_ID=-1514949692@10.169.0.83; JSESSIONID=aaasMk1xexHQo77h5hWSw; OUTFOX_SEARCH_USER_ID_NCOO=253932778.30526197; ___rl__test__cookies=1559880583877,“=”左边为参数,“=”右边为值。

Cookie_dirt = { 'OUTFOX_SEARCH_USER_ID'= '-1514949692@10.169.0.83',

'JSESSIONID'='aaasMk1xexHQo77h5hWSw',

'OUTFOX_SEARCH_USER_ID_NCOO'='253932778.30526197',

'___rl__test__cookies'='1559880583877'

}

requests.post(url, date, headers=headers, Cookie=Cookie_dirt)

使用session

假如我们现在要登陆一个网站,需要输入用户名(username)和密码(password),那么我们可以先发送一次post请求,获取到cookie,然后再携带cookie请求登陆之后的页面。使用这种方法,我们需要用的session。使用session发送一次请求,那么服务器设置在本地的Cookie,则会直接保存在session中,此时我们再用session.get直接请求登陆后的界面。写一个简单的例子如下:

import requests

#实例化session

s = requests.session()

post_url = '登录界面的url'

headers = {}

post_data = {'username': '',

'password': ''}

s.post(post_url, headers=headers, post_data=post_data)

#再使用session请求登陆后的页面

url = '登陆后的页面url'

response = s.get(url, headers=headers)

python爬虫cookie处理_Python爬虫(六)cookie相关的请求处理相关推荐

  1. python爬虫登录下载_Python爬虫实战入门四:使用Cookie模拟登录——获取电子书下载链接...

    在实际情况中,很多网站的内容都是需要登录之后才能看到,如此我们就需要进行模拟登录,使用登录后的状态进行爬取.这里就需要使用到Cookie. 现在大多数的网站都是使用Cookie跟踪用户的登录状态,一旦 ...

  2. python编程理论篇_Python爬虫入门实战之猫眼电影数据抓取(理论篇)

    前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...

  3. python requests的作用_Python爬虫第一课:requests的使用

    requests模块的入门使用 注意是requests不是request. 1.为什么使用requests模块,而不是用python自带的urllib requests的底层实现就是urllib re ...

  4. python爬虫自学路线_python 爬虫学习路线:从入门到进阶

    大家好,我是凉拌 今天给大家详解一下我的爬虫学习路线. 对于小白来说,爬虫可能是一件非常复杂.技术门槛很高的事情.比如有的人则认为先要掌握网页的知识,遂开始 HTML\CSS,结果入了前端的坑,浪费了 ...

  5. python爬虫面试问题_Python爬虫面试总结

    ## Python爬虫面试总结 1. 写一个邮箱地址的正则表达式? [A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$ 2. 谈 ...

  6. python爬取网页内容_Python爬虫原理解析

    笔者公众号:技术杂学铺 笔者网站:mwhitelab.com 本文将从何为爬虫.网页结构.python代码实现等方面逐步解析网络爬虫. 1. 何为爬虫 如今互联网上存储着大量的信息. 作为普通网民,我 ...

  7. 如何用python爬股票数据_python爬虫股票数据,如何用python 爬虫抓取金融数据

    Q1:如何用python 爬虫抓取金融数据 获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为 ...

  8. python模拟登录网站_Python爬虫实战之(四)| 模拟登录京东商城

    作者:xiaoyu 微信公众号:Python数据科学 知乎:Python数据分析师 前两篇和大家分享了爬虫中http的一些概念和使用方法,基础篇我们主要介绍了http的请求头,高级篇我们主要介绍了co ...

  9. python网页抓包_python爬虫入门01:教你在 Chrome 浏览器轻松抓包

    通过 我们知道了什么是爬虫 也知道了爬虫的具体流程 那么在我们要对某个网站进行爬取的时候 要对其数据进行分析 就要知道应该怎么请求 就要知道获取的数据是什么样的 所以我们要学会怎么抓咪咪! 哦,不对. ...

  10. python爬虫登录教程_Python爬虫之模拟知乎登录的方法教程

    前言 对于经常写爬虫的大家都知道,有些页面在登录之前是被禁止抓取的,比如知乎的话题页面就要求用户登录才能访问,而 "登录" 离不开 HTTP 中的 Cookie 技术. 登录原理 ...

最新文章

  1. 软件工程--软件设计
  2. QT学习笔记之QTableView设置属性的方法
  3. HSSFDataFormat大全
  4. python卸载module_Python学习笔记
  5. SQL Server XML格式化
  6. CCF201503-5 最小花费(100分解题链接)
  7. 随便说说字符集和编码
  8. 百度地图-根据起终点经纬度驾车导航
  9. 微信小程序 微信小程序地图搜索、地图搜索点点击出callout气泡标题说明
  10. 关闭tslint检测的简单方法
  11. c语言初学知识点,C语言学习关于数据类型的一些知识点(初学者)
  12. cuda相关的dockerfile build时异常处理
  13. PW2312A输入55V,输出0.6A降压IC
  14. python常用字符串格式化_Python字符串格式化常用手段及注意事项
  15. 计算机教师面试题模板,【小学信息技术教师资格证面试】_小学信息技术教师资格证面试试讲逐字稿万能模板...
  16. 收藏!50个帮你提升自我的网站
  17. c++基础-继承与派生,定义基类person和公有派生类student
  18. 电脑技巧全书(超详细.)
  19. 基于Doc2vec训练句子向量
  20. 战网显示服务器遇到了困难怎么办,战网客户端传输数据遇到了问题解决方法

热门文章

  1. 微信与qq怎么连接到服务器,王者荣耀微信和qq可以一起玩吗 王者荣耀微信和qq互通吗说明...
  2. ‘com.cloudera.server.cmf.TrialState‘:Cannot resolve reference to bean ‘entityManagerFactoryBean‘
  3. Apache Airflow调度中心发布任务步骤
  4. 关于徐晓东,传统武术,以及太极拳
  5. window进行resize的时候ie假死(jquery插件处理)
  6. 停止mysql服务的运行_启动和停止MySQL服务
  7. 压缩包文件密码忘记了文件怎么办?
  8. unity material以及各种贴图介绍
  9. 纪念小企鹅──fcitx
  10. 需求分析——需求具备哪些特征