【python爬虫学习篇】请求模块urllib3
目录
1.urllib3
1.1,发送网络请求
1.1.2,GET请求
1.1.3,POST请求
1.1.4,重试请求和处理响应内容
1.1.5,JSON信息
1.2,复杂请求的发送
1.2.1,设置请求头
1.2.2,设置超时
1.urllib3
urllib3是一个第三方的请求模块,在功能上要比python自带的urllib强大,由于urllib3是第三方模块所以需要单独安装该模块。
安装命令:pip install urllib3
1.1,发送网络请求
1.1.2,GET请求
使用urllib3模块发送网络请求时,首先需要创建PoolManager对象 ,通过该对象调用request()方法来实现网络请求发送。
使用PoolManager对象向多个服务器发送请求。一个PoolManager对象就是一个连接池管理对象,通过该对象可以向多个服务器发送请求。
示例代码:
import urllib3 #导入urllib3模块
urllib3.disable_warnings() #关闭ssl警告
jingdong_url='https://www.jd.com' #京东url
python_url='https://www.Python.org' #Python
baidu_url='https://www.baidu.com' #百度
http=urllib3.PoolManager() #创建连接池管理对象
r1=http.request('GET',jingdong_url) #向url地址发送GET请求
r2=http.request('GET',python_url)
r3=http.request('GET',baidu_url)
print('京东请求状态码:',r1.status)
print('Python请求状态码:',r2.status)
print('百度请求状态码:',r3.status)
运行结果:
1.1.3,POST请求
示例代码:
import urllib3
urllib3.disable_warnings() #关闭ssl警告
url='https://www.httpbin.org/post'
fields={'name':'jack','country':'中国','age':'300'} #定义字典类型的请求参数
http=urllib3.PoolManager() #创建连接池管理对象
r=http.request('POST',url,fields=fields) #发送POST请求
print('返回结果:\n',r.data.decode('utf_8'))
print('返回结果二:',r.data.decode('unicode_escape'))
运行结果:
1.1.4,重试请求和处理响应内容
通过reties参数设置重试请求,在默认情况下,request()方法的请求重试次数为3,改变重试次数,则可以设置reties参数。
发送网络请求后,将返回一个HTTPResponse对象,通过该对象中的info()方法即可获取HTTP响应头信息,该信息为字典(dict)类型的数据,所以通过for循环进行遍历才可以清晰的看清每条响应头信息的内容。
示例代码:
#重试请求,以及处理响应内容
import urllib3 #导入模块
urllib3.disable_warnings() #关闭ssl警告
url='https://www.httpbin.org/get' #测试地址
http=urllib3.PoolManager() #创建连接池
r=http.request('GET',url) #发送GET请求,默认重试请求
#重试请求
r1=http.request('GET',url,retries=5) #设置5次重试请求
r2=http.request('GET',url,retries=False) #关闭重试请求
print('重试请求测试:')
print('默认重试请求',r.retries.total)
print('设置重试请求次数:',r1.retries.total)
print('关闭重试请求次数:',r2.retries.total)
#处理响应内容
print('\n处理响应内容:')
response_header=r.info() #获取响应头
for key in response_header.keys(): #循环遍历打印响应头信息print(key,':',response_header.get(key))
运行结果:
1.1.5,JSON信息
处理返回的JSON信息。如果服务器返回一条JSON信息,而这条信息中只有某一条数据为可用数据时,则可以先将返回的JSON数据转化为字典数据,接着直接获取所对应的建的值即可。
代码示例:
#处理服务器返回的JSON信息
import urllib3
import json
urllib3.disable_warnings()
url='https://www.httpbin.org/post'
fields={'name':'jack','country':'中国','age':'200'} #定义字典类型的请求参数
r=urllib3.PoolManager().request('POST',url,fields=fields)#创建连接池管理对象并发送POST请求
j=json.loads(r.data.decode('unicode_escape')) #将响应数据转换为字典类型
print('数据类型:',type(j))
print('获取form对应的数据:',j.get('form'))
print('获取country对应的数据:',j.get('form').get('country'))
执行结果;
1.2,复杂请求的发送
1.2.1,设置请求头
大多数的服务器都会检测请求头信息,判断当前请求是否来自浏览器请求。使用request()方法设置请求头信息时,只需要为headers参数指定一个有效的字典(dict)类型的请求头信息即可。所以设置请求头信息前,需要在浏览器中找到一个有效的请求头信息。
通过F12(Ctrl+F12)进入开发者工具
请求头信息获取完成以后,将User—Agent设置为字典数据的键,后面的数据设置为字典中的value。
代码示例:
#设置请求头
import urllib3
urllib3.disable_warnings()
url='https://www.httpbin.org/get'
headers={'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) ''AppleWebKit/537.36 (KHTML, like Gecko) ''Chrome/92.0.4515.131 Safari/537.36 SLBrowser''/8.0.0.2242 SLBChan/1'}
http=urllib3.PoolManager()
r=http.request('GET',url,headers=headers)
print(r.data.decode('utf-8'))
运行结果:
1.2.2,设置超时
在没有特殊要求的情况下,可以将设置超时的参数时间填写在request()方法或者PoolManager实列对象中,
代码示例:
#设置超时
import urllib3
urllib3.disable_warnings() #关闭ssl警告
baidu_url='https://www.baidu.com' #url
python_url='https://www.Python.org'
http=urllib3.PoolManager() #创建连接池管理对象
try:r=http.request('GET',baidu_url,timeout=0.01)#发送请求并设置超时时间为0.01秒
except Exception as error:print('百度超时:',error)
http2=urllib3.PoolManager(timeout=0.1) #创建连接池管理对象并设置超时时间
try:r2=http2.request('GET',python_url)
except Exception as error:print('Python超时:',error)
运行结果:
【python爬虫学习篇】请求模块urllib3相关推荐
- 从入门到入土:Python爬虫学习|Selenium自动化模块学习|简单入门|轻松上手|自动操作浏览器进行处理|chrome|PART01
此博客仅用于记录个人学习进度,学识浅薄,若有错误观点欢迎评论区指出.欢迎各位前来交流.(部分材料来源网络,若有侵权,立即删除) 本人博客所有文章纯属学习之用,不涉及商业利益.不合适引用,自当删除! 若 ...
- Python爬虫 2-爬虫请求模块
urllib.request模块 1.1 版本 python2:urllib2,urllib python3:把urllib和urllib2合并,urllib.request 1.2 常用的方法 ur ...
- python爬虫学习(一) requests模块
requests模块: python中原生的一款基于网络请求的模块,功能非常强大,简单便捷,效率极高.作用:模拟浏览器发请求. 如何使用:(requests模块的编码流程) 一指定url 一发起请求 ...
- python爬虫学习之Soup模块
前言 就像我之前提到那样,使用正则来匹配获取是属麻烦,并且规则太多,下面结束一下python下面的一个模块Beautiful Soup来从网页抓取数据. 官网: 文档:http://beautiful ...
- python爬虫学习-定制请求头
请求头Headers提供了关于请求.响应或其他发送实体的信息. 下面以某书上的教程为例,查找正确的请求头. 通过chrome浏览器的"检查"命令,单击Network选项,在左侧的资 ...
- 【python爬虫学习篇】初识网络爬虫以及了解Web前端
目录 1,初识爬虫 1.1,网络爬虫概述 1.2,爬虫的分类 1.3,网络爬虫的基本原理 1.4,搭建开发环境 2,了解web前端 2.1,HTTP基本原理 2.1.1HTTP协议 2.1.2,Web ...
- Python爬虫学习第二章-1-requests模块简介
Python爬虫学习第二章-1-requests模块简介 这一章主要是介绍requests模块的相关知识以及使用 1.requests模块简介: 概述:是python中原生的一款基于网络请求的模块 ...
- Python爬虫学习第十一天---pymongo模块使用
Python爬虫学习第十一天-pymongo模块使用 一.安装pymongo模块 python3 -m pip install pymongo 二.pymongo模块的使用 1.配置基础项 user ...
- 如何学习Python爬虫[入门篇]?
这篇文章已经过去很久了,有一些学习资源链接已经失效了,还一直有小伙伴在Python的路上摸索.所以我根据自己的学习和工作经历整理了一套Python学习电子书,在公众号「路人甲TM」后台回复关键词「1」 ...
最新文章
- hive中array嵌套map以及行转列的使用
- 神器!Pytorch结构化神经网络修剪工具包
- 洛谷 - P2045 - 方格取数加强版 - 费用流
- C#算数运算符、关系运算符、逻辑运算符、语句
- 《从零开始学Swift》学习笔记(Day 20)——函数中参数的传递引用
- Linux6、7 系列 安装、卸载mysql
- 计算机的数学发展史论文,数学简史论文范文
- 三个变量中怎么找出中间值_scratch图形化编程基础练习-变量交换
- 告别后端!阿里云小程序 Serverless 教你如何 30 分钟开发小程序!
- 5.7 tensorflow2实现主成分分析(PCA) ——python实战(下篇)
- 微信公众号模板消息推送
- 8.2.1 消息通知过时写法解决
- 使用HBuilder打包App教程
- 浅谈IM(InstantMessaging) 即时通讯/实时传讯
- 决策规划算法二:生成参考线(FEM_POS_DEVIATION_SMOOTHING)
- ZCMU 1635 超大型 LED 显示屏
- 使用 C# 获取计算机硬件信息
- 评高级审计师需要什么计算机运用能力,告诉你怎么成为高级审计师
- 快速排序 - 一个萝卜一个坑
- 论述微型计算机系统特点,微型计算机系统的特点