一、请求库

1、urllib3 库
        提供很多Python 标准库里所没有的重要特性:线程安全,连接池,客户端SSL/TLS验证,文件分部编码上传,协助处理重复请求和HTTP 重定位,支持压缩编码,支持HTTP 和SOCKS 代理,100% 测试覆盖率
2、urllib 库
      Python 内置的HTTP 请求库,提供一系列用于操作URL 的功能
3、requests 库
      基于urllib,采用Apache2 Licensed 开源协议的HTTP 库
4、selenium

Selenium 是一个自动化测试工具,利用它我们可以驱动浏览器执行特定的动作,如点击、下拉等操作,对于一些JavaScript 渲染页面来说,这种抓取方式非常有效。
5、ChromeDriver
       谷歌浏览器的的驱动,只有安装了浏览器驱动,才能使用selenium 来驱动谷歌浏览器完成相应的操作。

二、解析库

1、regex
        正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。正则表
达式是繁琐的,但它是强大的
2、lxml

lxml 的C 语言编写高效HTML/XML 处理库。支持HTML 和XML 的解析,也支持XPath 解
析方式,而且解析效率非常高。
3、xpath 库
      XPath,全称XML Path Language,即XML 路径语言,它是一门在XML 文档中查找信息的语言。XPath 最初设计是用来搜寻XML 文档的,但是它同样适用于HTML 文档的搜索。
4、BeautifulSoup 库
      BeautifulSoup 是Python 的一个HTML 或XML 的解析库,利用它我们可以从网页提取数据。它拥有很强大的API 和多样的解析方式.

三、数据库与存储库

1、MySQL 数据库与PyMySQL 库
        MySQL一个轻量级的关系型数据库,PyMySQL是在Python3.x 版本中用于连接MySQL服务器的一个库。
2、MongoDB 数据库与PyMongo
       MongoDB 是由C++ 语言编写的非关系型数据库,其存储字段可以包含其他文档、数组及文档数组,非常灵活。PyMongo 是在Python3.x 版本中用于连接MongoDB 服务器的一个库。

四、爬虫框架

1、crapy
       一个为了爬取网站数据,提取结构性数据而编写的应用框架。

想了解更多爬虫可移步:Python网络爬虫教程详解.pdf_python网页爬虫教程-互联网文档类资源-CSDN下载

Python 爬虫相关库相关推荐

  1. Python爬虫 —— urllib库的使用(get/post请求+模拟超时/浏览器)

    Python爬虫 -- urllib库的使用(get/post请求+模拟超时/浏览器) 这里写目录标题 Python爬虫 -- urllib库的使用(get/post请求+模拟超时/浏览器) 1.Py ...

  2. Python爬虫高级库之一的lxml库中,ET.parse()是一个非常重要的方法。它可以将任意XML或HTML格式的文档解析成一个ElementTree对象,...

    Python爬虫高级库之一的lxml库中,ET.parse()是一个非常重要的方法.它可以将任意XML或HTML格式的文档解析成一个ElementTree对象,方便我们对结构化的数据进行处理和分析.在 ...

  3. Python爬虫扩展库scrapy选择器用法入门(一)

    关于BeutifulSoup4的用法入门请参考Python爬虫扩展库BeautifulSoup4用法精要,scrapy爬虫案例请参考Python使用Scrapy爬虫框架爬取天涯社区小说"大宗 ...

  4. 使用python及相关库实现AQI分析与预测

    使用python及相关库实现AQI分析与预测 前言 一.需求背景 二.提出问题 三.数据预览 四.数据清洗 五.数据分析 六.总结 前言 一.需求背景 AQI(Air Quality Index),即 ...

  5. 已解决(Python爬虫requests库报错 请求异常SSL错误,证书认证失败问题)requests.exceptions.SSLError: HTTPSConnectionPool

    成功解决(Python爬虫requests库报错 请求异常,SSL错误,证书认证失败问题)requests.exceptions.SSLError: HTTPSConnectionPool(host= ...

  6. 【python】python爬虫requests库详解

    1.安装:pip install requests 简介:Requests是一个优雅而简单的Python HTTP库,与之前的urllibPython的标准库相比,Requests的使用方式非常的简单 ...

  7. Python爬虫——Requests 库基本使用

    文章目录 Python爬虫--Requests 库基本使用 1.Requests简介和下载 2.Requests 库基本使用 Python爬虫--Requests 库基本使用 1.Requests简介 ...

  8. Python爬虫基础库(RBX)的实践_田超凡

    转载请注明原作者:田超凡 20190410 CSDN博客:https://blog.csdn.net/qq_30056341# Python爬虫基础库RBX指的是:Requests Beautiful ...

  9. python数据分析复盘——爬虫相关库

    Requests.BeautifulSoup.re.lxml.css selector .scrapy 1.Requests 1.1 Requests的7个主要方法 其中,request()方法是其它 ...

最新文章

  1. 最优子结构(Optimal Substructure)
  2. php性能需求,PHP语言性能考察
  3. 初识Notification
  4. 使用py2neo构建neo4j图模型小demo
  5. toast弹窗_弹窗实用素材模板|UI设计中的弹窗设计技巧,快get
  6. 英国电信移除华为设备后,多家运营商继续与华为合作,并达成20亿英镑协议...
  7. 【SDPVRP】基于matlab遗传算法求解同时取送货的车辆路径问题【含Matlab源码 1487期】
  8. 漫画:一场大会,秀出了中国人自己的操作系统!
  9. 负载均衡与分布式网络存储技术简介
  10. C语言之父丹尼斯·里奇:乔布斯脚下的巨人肩膀
  11. 盛会再临,2018 中国大数据技术大会(BDTC)首曝日程及议题
  12. python教你用骰子拼图
  13. 考试系统主服务器进入 分机进不去,为什么驾校考试系统网址进不去
  14. win10关闭实时防护的步骤教程
  15. Springboot企业资源管理信息系统kvonv计算机毕业设计-课程设计-期末作业-毕设程序代做
  16. charles基础使用
  17. 领导合影站位图_领导座次安排图,没有人会教你这些,但非常重要!(建议收藏)...
  18. [GPGPU]图形处理单元上的通用计算
  19. 【EXP】函数使用技巧
  20. PCL入门系列 —— StatisticalOutlierRemoval 点云统计滤波

热门文章

  1. 通信屌丝也谈星际穿越,通信大牛请绕道
  2. 美图app sig分析
  3. 分析NTFS文件系统得到特定文件的内容
  4. Yolov5更换backbone,与模型压缩(剪枝,量化,蒸馏)
  5. Unity2D横版游戏开发-游戏框架构建脚本学习
  6. C#-正则基础 [0-9] 匹配数字
  7. 最简单的屏幕OCR文字识别
  8. 【方案分享】2022政务类抖音运营方案:政务短视频号运营指南.pptx(附下载链接)...
  9. python写动态壁纸_10分钟教你用python更换电脑壁纸
  10. WIN10 注册表方式关闭自动更新(入职小灰)