Python 爬虫相关库
一、请求库
1、urllib3 库
提供很多Python 标准库里所没有的重要特性:线程安全,连接池,客户端SSL/TLS验证,文件分部编码上传,协助处理重复请求和HTTP 重定位,支持压缩编码,支持HTTP 和SOCKS 代理,100% 测试覆盖率
2、urllib 库
Python 内置的HTTP 请求库,提供一系列用于操作URL 的功能
3、requests 库
基于urllib,采用Apache2 Licensed 开源协议的HTTP 库
4、selenium
Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作,对于一些JavaScript 渲染页面来说,这种抓取方式非常有效。
5、ChromeDriver
谷歌浏览器的的驱动,只有安装了浏览器驱动,才能使用selenium 来驱动谷歌浏览器完成相应的操作。
二、解析库
1、regex
正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。正则表
达式是繁琐的,但它是强大的
2、lxml
lxml 的C 语言编写高效HTML/XML 处理库。支持HTML 和XML 的解析,也支持XPath 解
析方式,而且解析效率非常高。
3、xpath 库
XPath,全称XML Path Language,即XML 路径语言,它是一门在XML 文档中查找信息的语言。XPath 最初设计是用来搜寻XML 文档的,但是它同样适用于HTML 文档的搜索。
4、BeautifulSoup 库
BeautifulSoup 是Python 的一个HTML 或XML 的解析库,利用它我们可以从网页提取数据。它拥有很强大的API 和多样的解析方式.
三、数据库与存储库
1、MySQL 数据库与PyMySQL 库
MySQL一个轻量级的关系型数据库,PyMySQL是在Python3.x 版本中用于连接MySQL服务器的一个库。
2、MongoDB 数据库与PyMongo
MongoDB 是由C++ 语言编写的非关系型数据库,其存储字段可以包含其他文档、数组及文档数组,非常灵活。PyMongo 是在Python3.x 版本中用于连接MongoDB 服务器的一个库。
四、爬虫框架
1、crapy
一个为了爬取网站数据,提取结构性数据而编写的应用框架。
想了解更多爬虫可移步:Python网络爬虫教程详解.pdf_python网页爬虫教程-互联网文档类资源-CSDN下载
Python 爬虫相关库相关推荐
- Python爬虫 —— urllib库的使用(get/post请求+模拟超时/浏览器)
Python爬虫 -- urllib库的使用(get/post请求+模拟超时/浏览器) 这里写目录标题 Python爬虫 -- urllib库的使用(get/post请求+模拟超时/浏览器) 1.Py ...
- Python爬虫高级库之一的lxml库中,ET.parse()是一个非常重要的方法。它可以将任意XML或HTML格式的文档解析成一个ElementTree对象,...
Python爬虫高级库之一的lxml库中,ET.parse()是一个非常重要的方法.它可以将任意XML或HTML格式的文档解析成一个ElementTree对象,方便我们对结构化的数据进行处理和分析.在 ...
- Python爬虫扩展库scrapy选择器用法入门(一)
关于BeutifulSoup4的用法入门请参考Python爬虫扩展库BeautifulSoup4用法精要,scrapy爬虫案例请参考Python使用Scrapy爬虫框架爬取天涯社区小说"大宗 ...
- 使用python及相关库实现AQI分析与预测
使用python及相关库实现AQI分析与预测 前言 一.需求背景 二.提出问题 三.数据预览 四.数据清洗 五.数据分析 六.总结 前言 一.需求背景 AQI(Air Quality Index),即 ...
- 已解决(Python爬虫requests库报错 请求异常SSL错误,证书认证失败问题)requests.exceptions.SSLError: HTTPSConnectionPool
成功解决(Python爬虫requests库报错 请求异常,SSL错误,证书认证失败问题)requests.exceptions.SSLError: HTTPSConnectionPool(host= ...
- 【python】python爬虫requests库详解
1.安装:pip install requests 简介:Requests是一个优雅而简单的Python HTTP库,与之前的urllibPython的标准库相比,Requests的使用方式非常的简单 ...
- Python爬虫——Requests 库基本使用
文章目录 Python爬虫--Requests 库基本使用 1.Requests简介和下载 2.Requests 库基本使用 Python爬虫--Requests 库基本使用 1.Requests简介 ...
- Python爬虫基础库(RBX)的实践_田超凡
转载请注明原作者:田超凡 20190410 CSDN博客:https://blog.csdn.net/qq_30056341# Python爬虫基础库RBX指的是:Requests Beautiful ...
- python数据分析复盘——爬虫相关库
Requests.BeautifulSoup.re.lxml.css selector .scrapy 1.Requests 1.1 Requests的7个主要方法 其中,request()方法是其它 ...
最新文章
- 最优子结构(Optimal Substructure)
- php性能需求,PHP语言性能考察
- 初识Notification
- 使用py2neo构建neo4j图模型小demo
- toast弹窗_弹窗实用素材模板|UI设计中的弹窗设计技巧,快get
- 英国电信移除华为设备后,多家运营商继续与华为合作,并达成20亿英镑协议...
- 【SDPVRP】基于matlab遗传算法求解同时取送货的车辆路径问题【含Matlab源码 1487期】
- 漫画:一场大会,秀出了中国人自己的操作系统!
- 负载均衡与分布式网络存储技术简介
- C语言之父丹尼斯·里奇:乔布斯脚下的巨人肩膀
- 盛会再临,2018 中国大数据技术大会(BDTC)首曝日程及议题
- python教你用骰子拼图
- 考试系统主服务器进入 分机进不去,为什么驾校考试系统网址进不去
- win10关闭实时防护的步骤教程
- Springboot企业资源管理信息系统kvonv计算机毕业设计-课程设计-期末作业-毕设程序代做
- charles基础使用
- 领导合影站位图_领导座次安排图,没有人会教你这些,但非常重要!(建议收藏)...
- [GPGPU]图形处理单元上的通用计算
- 【EXP】函数使用技巧
- PCL入门系列 —— StatisticalOutlierRemoval 点云统计滤波