python爬虫cookie处理_Python爬虫（六）cookie相关的请求处理

之前的文章中讲到，有很多网站为了防止爬虫程序爬网站造成网站瘫痪，所以我们的程序在模拟浏览器访问这些网站时，需要携带一些headers头部信息才能访问，最常见的有User-Agent、referer、cookie参数。那么针对cookie参数的处理，有以下两种方式。

直接携带cookie请求url地址

cookie放在headers中。这种方式与headers中携带User-Agent一样，只需要将cookie字符串放在headers字典中即可。

headers = {'User-Agent': '......',

'Cookie':'cookie字符串'}

requests.post(url, date, headers=headers)

cookie字典传给cookies参数。这种方式需要新增一个cookie的字典，再将该参数传给cookies参数。写一个简单的例子：Cookie:OUTFOX_SEARCH_USER_ID=-1514949692@10.169.0.83; JSESSIONID=aaasMk1xexHQo77h5hWSw; OUTFOX_SEARCH_USER_ID_NCOO=253932778.30526197; ___rl__test__cookies=1559880583877，“=”左边为参数，“=”右边为值。

Cookie_dirt = { 'OUTFOX_SEARCH_USER_ID'= '-1514949692@10.169.0.83',

'JSESSIONID'='aaasMk1xexHQo77h5hWSw',

'OUTFOX_SEARCH_USER_ID_NCOO'='253932778.30526197',

'___rl__test__cookies'='1559880583877'

}

requests.post(url, date, headers=headers, Cookie=Cookie_dirt)

使用session

假如我们现在要登陆一个网站，需要输入用户名(username)和密码(password)，那么我们可以先发送一次post请求，获取到cookie，然后再携带cookie请求登陆之后的页面。使用这种方法，我们需要用的session。使用session发送一次请求，那么服务器设置在本地的Cookie，则会直接保存在session中，此时我们再用session.get直接请求登陆后的界面。写一个简单的例子如下：

import requests

#实例化session

s = requests.session()

post_url = '登录界面的url'

headers = {}

post_data = {'username': '',

'password': ''}

s.post(post_url, headers=headers, post_data=post_data)

#再使用session请求登陆后的页面

url = '登陆后的页面url'

response = s.get(url, headers=headers)

python爬虫cookie处理_Python爬虫（六）cookie相关的请求处理相关推荐

python爬虫登录下载_Python爬虫实战入门四：使用Cookie模拟登录——获取电子书下载链接...
在实际情况中,很多网站的内容都是需要登录之后才能看到,如此我们就需要进行模拟登录,使用登录后的状态进行爬取.这里就需要使用到Cookie. 现在大多数的网站都是使用Cookie跟踪用户的登录状态,一旦 ...
python编程理论篇_Python爬虫入门实战之猫眼电影数据抓取(理论篇)
前言本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...
python requests的作用_Python爬虫第一课：requests的使用
requests模块的入门使用注意是requests不是request. 1.为什么使用requests模块,而不是用python自带的urllib requests的底层实现就是urllib re ...
python爬虫自学路线_python 爬虫学习路线：从入门到进阶
大家好,我是凉拌今天给大家详解一下我的爬虫学习路线. 对于小白来说,爬虫可能是一件非常复杂.技术门槛很高的事情.比如有的人则认为先要掌握网页的知识,遂开始 HTML\CSS,结果入了前端的坑,浪费了 ...
python爬虫面试问题_Python爬虫面试总结
## Python爬虫面试总结 1. 写一个邮箱地址的正则表达式? [A-Za-z0-9\u4e00-\u9fa5]+@[a-zA-Z0-9_-]+(\.[a-zA-Z0-9_-]+)+$ 2. 谈 ...
python爬取网页内容_Python爬虫原理解析
笔者公众号:技术杂学铺笔者网站:mwhitelab.com 本文将从何为爬虫.网页结构.python代码实现等方面逐步解析网络爬虫. 1. 何为爬虫如今互联网上存储着大量的信息. 作为普通网民,我 ...
如何用python爬股票数据_python爬虫股票数据,如何用python 爬虫抓取金融数据
Q1:如何用python 爬虫抓取金融数据获取数据是数据分析中必不可少的一部分,而网络爬虫是是获取数据的一个重要渠道之一.鉴于此,我拾起了Python这把利器,开启了网络爬虫之路. 本篇使用的版本为 ...
python模拟登录网站_Python爬虫实战之（四）| 模拟登录京东商城
作者:xiaoyu 微信公众号:Python数据科学知乎:Python数据分析师前两篇和大家分享了爬虫中http的一些概念和使用方法,基础篇我们主要介绍了http的请求头,高级篇我们主要介绍了co ...
python网页抓包_python爬虫入门01：教你在 Chrome 浏览器轻松抓包
通过我们知道了什么是爬虫也知道了爬虫的具体流程那么在我们要对某个网站进行爬取的时候要对其数据进行分析就要知道应该怎么请求就要知道获取的数据是什么样的所以我们要学会怎么抓咪咪! 哦,不对. ...
python爬虫登录教程_Python爬虫之模拟知乎登录的方法教程
前言对于经常写爬虫的大家都知道,有些页面在登录之前是被禁止抓取的,比如知乎的话题页面就要求用户登录才能访问,而 "登录" 离不开 HTTP 中的 Cookie 技术. 登录原理 ...

python爬虫cookie处理_Python爬虫（六）cookie相关的请求处理

python爬虫cookie处理_Python爬虫（六）cookie相关的请求处理相关推荐

最新文章

热门文章