1、简介

简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下:

Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。

Beautiful Soup自动将输入文档转换为Unicode编码,输出文档转换为utf-8编码。你不需要考虑编码方式,除非文档没有指定一个编码方式,这时,Beautiful Soup就不能自动识别编码方式了。然后,你仅仅需要说明一下原始编码方式就可以了。

Beautiful Soup已成为和lxml、html6lib一样出色的python解释器,为用户灵活地提供不同的解析策略或强劲的速度。

2、环境安装

Beautiful Soup 3 目前已经停止开发,推荐在现在的项目中使用Beautiful Soup 4,不过它已经被移植到BS4了,也就是说导入时我们需要 from bs4 import BeautifulSoup  。所以这里我们用的版本是 Beautiful Soup 4.3.2 (简称BS4)。

1、快速安装

2、如果想安装最新的版本,请直接下载安装包来手动安装,也是十分方便的方法

1、Beautiful Soup3.2.1

https://pypi.python.org/pypi/BeautifulSoup/3.2.1

2、Beautiful Soup4.3.2

https://pypi.python.org/pypi/beautifulsoup4/

下载完成之后解压

运行下面的命令即可完成安装

python setup.py install

3、然后需要安装 lxml

pip install lxml

另一个可供选择的解析器是纯Python实现的 html5lib , html5lib的解析方式与浏览器相同,可以选择下列方法来安装html5lib:

pip install html5lib

Beautiful Soup支持Python标准库中的HTML解析器,还支持一些第三方的解析器,如果我们不安装它,则 Python 会使用 Python默认的解析器,lxml 解析器更加强大,速度更快,推荐安装。

3. 使用方法

以下内容测试css和xpath分别提取文本和属性的区别,方便后续查看

fromscrapy.selector import Selectorfromscrapy.http import HtmlResponsefrom bs4 import BeautifulSoup asbs

body= '''

Example website

Name: My image 1

Name: My image 2

Name: My image 3

Name: My image 4

Name: My image 5 "div text"

helloworld test

'''soup = bs(body, "lxml")

print("css获取属性:",soup.select("div")[0].attrs["id"])

print("xpath获取属性:",Selector(text=body).xpath("//div/@id").extract()[0])

print("css获取文本:", soup.select("title[id='txt']")[0].string)

print("xpath获取文本:",Selector(text=body).xpath("//title[@id='txt']/text()").extract()[0])

python beautifulsoup库下载_python之Beautiful Soup库相关推荐

  1. python常用包下载_Python及其常用模块库下载及安装

    一.Python下载: https://www.python.org/downloads/ 二.Python模块下载: http://www.lfd.uci.edu/~gohlke/pythonlib ...

  2. python模块大全下载_Python及其常用模块库下载及安装

    一.Python下载:https://www.python.org/downloads/ 二.Python模块下载:http://www.lfd.uci.edu/~gohlke/pythonlibs/ ...

  3. 小白学爬虫(三 Beautiful Soup库)

    Beautiful Soup库是解析HTML页面信息标记与提取方法,解析.维护.遍历"标签树"的功能库. 初步使用Beautiful Soup库 from bs4 import B ...

  4. python爬虫beautifulsoup实例-Python爬虫学习(二)使用Beautiful Soup库

    (一)使用Beautiful Soup库(默认将HTML转换为utf-8编码) 1,安装Beautiful Soup库:pip install beautifulsoup4 2,简单使用: impor ...

  5. python中bs4库_python系统学习2——beautiful soup库(bs4库)学习

    beautiful soup库作为python第三方库,可以对html语言进行很好的树形解析,"美味汤"的直译也是在说能够把文档像一锅汤一样进行调制. beautiful soup ...

  6. Python 网络爬虫笔记5 -- Beautiful Soup库实战

    Python 网络爬虫笔记5 – Beautiful Soup库实战 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. ...

  7. Python 网络爬虫笔记3 -- Beautiful Soup库

    Python 网络爬虫笔记3 – Beautiful Soup库 Python 网络爬虫系列笔记是笔者在学习嵩天老师的<Python网络爬虫与信息提取>课程及笔者实践网络爬虫的笔记. 课程 ...

  8. 【Python爬虫】Beautiful Soup库入门

    BeautifulSoup库的安装 安装 pip install beautifulsoup4 测试是否安装成功 Python 3.8.3 (tags/v3.8.3:6f8c832, May 13 2 ...

  9. python爬虫之Beautiful Soup库,基本使用以及提取页面信息

    一.Beautiful Soup简介 爬虫正则表达式参考:Python 爬虫正则表达式和re库 在爬虫过程中,可以利用正则表达式去提取信息,但是有些人觉得比较麻烦.因为花大量时间分析正则表达式.这时候 ...

  10. python爬虫bs4库_04 Python爬虫之Beautiful Soup库

    Beautiful Soup库的安装 Win平台: 以管理员身份运行 cmd 执行 pip install beautifulsoup4 Beautiful Soup库的安装小测 首先,获取网页源码保 ...

最新文章

  1. java 访问 网络swf_JAVA访问网络资源
  2. 聚类dbi指数_人脸聚类常用评价指标
  3. Python开发者的完美终端工具
  4. Map map = request.getParameterMap(); BeanUtils.populate(bean, map);对前端表单的迅速封装与判断
  5. 实战渗透 | 向吃鸡外挂站开炮
  6. 科学技术是对人类历史发展和现代国家兴亡起决定作用的一种力量
  7. L1-054 福到了-PAT团体程序设计天梯赛GPLT
  8. 奇妙的等式 精妙的证明(二)
  9. JavaScript 编码指南
  10. 用javaScript实现轮播图效果 包括自动变换,按钮控制,上一张下一张切换
  11. slk文件(QQ or 微信) 转为 mp3
  12. 上海交大计算机系王楠,交通学院本科生学生组织干部名单
  13. BurpSuite 安装配置(License Key)
  14. 蓝桥杯嵌入式基于STM32G4的模块总结【HAL库】【省赛】
  15. kong插件开发-完全版
  16. c 抓取ajax异步数据,用requests.post提交表单抓取异步ajax信息失败
  17. 简易电子邮件收信的原理以及实现
  18. 基于高校服务器信息的网络空间资源分类
  19. 微信小程序 web-view 在ios显示空白页面
  20. 无责任共享 Coursera、Udacity 等课程视频

热门文章

  1. python处理excel——创建excel工作簿和工作表并录入信息(openpyxl库)
  2. CTFShow web1-7——CTF秀WEB模块解题思路
  3. 制作Linux下程序一键安装包
  4. 云备份的正确打开方式,你学会了吗?
  5. 小盒马,大永辉,“大润发们”的未来怎么“大发”?
  6. RT-Thread Studio 使用笔记(六)| 获取光传感器数据(I2C设备驱动+BH1750手写驱动代码分享)
  7. STM32F7以太网HAL库源文件(stm32f7xx_hal_eth.c)笔记
  8. Java每周一记(2)
  9. vue3+tsx 踩坑
  10. Machine Learning读书会,面试算法讲座,创业活动,算法班(15年6月)