python beautifulsoup库下载_python之Beautiful Soup库
1、简介
简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:
Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。
Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。
Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。
2、环境安装
Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用Beautiful Soup 4,不过它已经被移植到BS4了,也就是说导入时我们需要 from bs4 import BeautifulSoup 。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4)。
1、快速安装
2、如果想安装最新的版本,请直接下载安装包来手动安装,也是十分方便的方法
1、Beautiful Soup3.2.1
https://pypi.python.org/pypi/BeautifulSoup/3.2.1
2、Beautiful Soup4.3.2
https://pypi.python.org/pypi/beautifulsoup4/
下载完成之后解压
运行下面的命令即可完成安装
python setup.py install
3、然后需要安装 lxml
pip install lxml
另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同,可以选择下列方法来安装html5lib:
pip install html5lib
Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐安装。
3. 使用方法
以下内容测试css和xpath分别提取文本和属性的区别,方便后续查看
fromscrapy.selector import Selectorfromscrapy.http import HtmlResponsefrom bs4 import BeautifulSoup asbs
body= '''
Example website
Name: My image 1
Name: My image 2
Name: My image 3
Name: My image 4
Name: My image 5 "div text"
'''soup = bs(body, "lxml")
print("css获取属性:",soup.select("div")[0].attrs["id"])
print("xpath获取属性:",Selector(text=body).xpath("//div/@id").extract()[0])
print("css获取文本:", soup.select("title[id='txt']")[0].string)
print("xpath获取文本:",Selector(text=body).xpath("//title[@id='txt']/text()").extract()[0])
python beautifulsoup库下载_python之Beautiful Soup库相关推荐
- python常用包下载_Python及其常用模块库下载及安装
一.Python下载: https://www.python.org/downloads/ 二.Python模块下载: http://www.lfd.uci.edu/~gohlke/pythonlib ...
- python模块大全下载_Python及其常用模块库下载及安装
一.Python下载:https://www.python.org/downloads/ 二.Python模块下载:http://www.lfd.uci.edu/~gohlke/pythonlibs/ ...
- 小白学爬虫(三 Beautiful Soup库)
Beautiful Soup库是解析HTML页面信息标记与提取方法,解析.维护.遍历"标签树"的功能库. 初步使用Beautiful Soup库 from bs4 import B ...
- python爬虫beautifulsoup实例-Python爬虫学习(二)使用Beautiful Soup库
(一)使用Beautiful Soup库(默认将HTML转换为utf-8编码) 1,安装Beautiful Soup库:pip install beautifulsoup4 2,简单使用: impor ...
- python中bs4库_python系统学习2——beautiful soup库(bs4库)学习
beautiful soup库作为python第三方库,可以对html语言进行很好的树形解析,"美味汤"的直译也是在说能够把文档像一锅汤一样进行调制. beautiful soup ...
- Python 网络爬虫笔记5 -- Beautiful Soup库实战
Python 网络爬虫笔记5 – Beautiful Soup库实战 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. ...
- Python 网络爬虫笔记3 -- Beautiful Soup库
Python 网络爬虫笔记3 – Beautiful Soup库 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程 ...
- 【Python爬虫】Beautiful Soup库入门
BeautifulSoup库的安装 安装 pip install beautifulsoup4 测试是否安装成功 Python 3.8.3 (tags/v3.8.3:6f8c832, May 13 2 ...
- python爬虫之Beautiful Soup库,基本使用以及提取页面信息
一.Beautiful Soup简介 爬虫正则表达式参考:Python 爬虫正则表达式和re库 在爬虫过程中,可以利用正则表达式去提取信息,但是有些人觉得比较麻烦.因为花大量时间分析正则表达式.这时候 ...
- python爬虫bs4库_04 Python爬虫之Beautiful Soup库
Beautiful Soup库的安装 Win平台: 以管理员身份运行 cmd 执行 pip install beautifulsoup4 Beautiful Soup库的安装小测 首先,获取网页源码保 ...
最新文章
- java 访问 网络swf_JAVA访问网络资源
- 聚类dbi指数_人脸聚类常用评价指标
- Python开发者的完美终端工具
- Map map = request.getParameterMap(); BeanUtils.populate(bean, map);对前端表单的迅速封装与判断
- 实战渗透 | 向吃鸡外挂站开炮
- 科学技术是对人类历史发展和现代国家兴亡起决定作用的一种力量
- L1-054 福到了-PAT团体程序设计天梯赛GPLT
- 奇妙的等式 精妙的证明(二)
- JavaScript 编码指南
- 用javaScript实现轮播图效果 包括自动变换,按钮控制,上一张下一张切换
- slk文件(QQ or 微信) 转为 mp3
- 上海交大计算机系王楠,交通学院本科生学生组织干部名单
- BurpSuite 安装配置(License Key)
- 蓝桥杯嵌入式基于STM32G4的模块总结【HAL库】【省赛】
- kong插件开发-完全版
- c 抓取ajax异步数据,用requests.post提交表单抓取异步ajax信息失败
- 简易电子邮件收信的原理以及实现
- 基于高校服务器信息的网络空间资源分类
- 微信小程序 web-view 在ios显示空白页面
- 无责任共享 Coursera、Udacity 等课程视频
热门文章
- python处理excel——创建excel工作簿和工作表并录入信息(openpyxl库)
- CTFShow web1-7——CTF秀WEB模块解题思路
- 制作Linux下程序一键安装包
- 云备份的正确打开方式,你学会了吗?
- 小盒马,大永辉,“大润发们”的未来怎么“大发”?
- RT-Thread Studio 使用笔记(六)| 获取光传感器数据(I2C设备驱动+BH1750手写驱动代码分享)
- STM32F7以太网HAL库源文件(stm32f7xx_hal_eth.c)笔记
- Java每周一记(2)
- vue3+tsx 踩坑
- Machine Learning读书会,面试算法讲座,创业活动,算法班(15年6月)