【数据分析】⚠️走进数据分析 3⚠️ Beautiful Soup 提取页面信息

  • 概述
  • Beautiful Soup
  • 提取页面信息

概述

数据分析 (Data Analyze) 可以在工作中的各个方面帮助我们. 本专栏为量化交易专栏下的子专栏, 主要讲解一些数据分析的基础知识.

Beautiful Soup

Beautiful 是一个可以从 HTML 或 XML 文件中提取数据的 Pyhton 库. 简单来说, 它能将 HTML 的标签文件解析成树形结构, 然后方便的获取到指定标签的对应属性.


安装:

pip install beautifulsoup4

例子:

from bs4 import BeautifulSoup# 创建一段HTML代码
html_content = """
<html>
<head>
<title>我是小白呀的博客</title>
</head>
<body>
<p class="redColor">个人介绍</p>
</body>
</html>
"""# 生成soup
soup = BeautifulSoup(html_content, "html.parser")# 调试输出
print(soup.title)  # 标题
print("name:", soup.title.name)
print(soup.head)  # 头部
print("name:", soup.head.name)
print(soup.p)  # 段落
print("name:", soup.p.name)
print("class:", soup.p.attrs)

输出结果:

<title>我是小白呀的博客</title>
name: title
<head>
<title>我是小白呀的博客</title>
</head>
name: head
<p class="redColor">个人介绍</p>
name: p
class: {'class': ['redColor']}
class: ['redColor']

提取页面信息

例子:

from urllib import request
from bs4 import BeautifulSoup# 网页
url = "https://iamarookie.blog.csdn.net/"# 发送请求
response = request.urlopen(url)# 获取内容
html_content = response.read().decode("utf-8")# 生成soup
soup = BeautifulSoup(html_content)# 解析博客名字
blog_name = soup.find("div", attrs={"class":"user-profile-head-name"}).text
print("博客名字:\n", blog_name)# 解析博客签名
blog_signature = soup.find("div", attrs={"class":"user-profile-head-introduction"}).text
print("博客签名:\n", blog_signature.strip())

输出结果:

博客名字:我是小白呀  码龄2年
博客签名:吾本布衣, 出自纽约, 四周大山. 箪瓢屡空, 环堵萧然, 不弊风日. 吾好读书, 滴水石穿, 笨鸟先飞, 求知不断, 方能立足. 不羡孔北海之座上客常满, 但求吾辈架上书常在. 涸辙遗鲋, 暮成枯, 人而无志, 与彼何殊. Self-study Computer Science. 愿为 open source 自效微力. 天高地阔,欲往观之. 因为啥也不会, 默默做一只小白

【数据分析】⚠️走进数据分析 3⚠️ Beautiful Soup 提取页面信息相关推荐

  1. python爬虫之Beautiful Soup库,基本使用以及提取页面信息

    一.Beautiful Soup简介 爬虫正则表达式参考:Python 爬虫正则表达式和re库 在爬虫过程中,可以利用正则表达式去提取信息,但是有些人觉得比较麻烦.因为花大量时间分析正则表达式.这时候 ...

  2. 三、Beautiful Soup解析库

    一.Beautiful Soup介绍与安装 1,Beautiful Soup介绍 答:Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库 2,Beautiful S ...

  3. 用Beautiful Soup进行屏幕抓取

    数据抓取操作步骤 创建用于发送HTTP请求时将用到的所有值 发出HTTP请求并下载所有数据 解析这些数据文件中需要的数据, 具体操作步骤 首先需要弄清需要访问哪个URL以及需要哪种HTTP方法.HTT ...

  4. 【数据分析】走进数据分析 5 指标介绍

    [数据分析]走进数据分析 5 指标介绍 概述 基础指标 DUA 留存 渗透 页面浏览指标 PV UV Depth of Visit 商业化指标 CTR ARPU CPM CPC ROI 概述 数据分析 ...

  5. Python爬虫学习之数据提取(Beautiful Soup)

    Python爬虫学习之数据提取Beautiful Soup 前期回顾 概述 解析器 准备工作 实例 节点选择器 方法选择器 find_all find 总结 前期回顾 Python爬虫学习之reque ...

  6. Python爬虫之(八)数据提取-Beautiful Soup

    Beautiful Soup的简介 Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能.它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单 ...

  7. python beautifulsoup_Python爬虫利器:Beautiful Soup的使用(一)

    上一次的爬取网易新闻案例,我们使用到了一个解析 HTML 的库:Beautiful Soup.本次跟大家分享一下关于这个库的一些用法. Beautiful Soup 简介: Beautiful Sou ...

  8. 【Python beautiful soup】如何用beautiful soup 解析HTML内容

    美丽汤(Beautiful Soup)是一个流行的Python库,用于从HTML或XML文件中提取数据.它将复杂的HTML文件转化为一个Python对象,使得用户可以更方便地解析.搜索和修改HTML内 ...

  9. Python爬虫利器之Beautiful Soup的全世界最强用法 五百行文章!

    0. 前言 爬虫是一个非常有意思的东西,比如自己做的一个网页上面什么数据都没有就可以爬虫别人的 然后进行去重 数据分析等等 在这里因为爬虫涉及到的方面非常多 1. Beautiful Soup的简介 ...

  10. python爬虫beautifulsoup实例-Python爬虫学习(二)使用Beautiful Soup库

    (一)使用Beautiful Soup库(默认将HTML转换为utf-8编码) 1,安装Beautiful Soup库:pip install beautifulsoup4 2,简单使用: impor ...

最新文章

  1. 反射 -- 业务需求:执行某个类中全部的以test为开头的无参数无返回值的非静态方法。...
  2. SpringBoot—分层结构
  3. redis连接池操作
  4. [UE4] 通过 Git 进行版本控制时的报错 No assets to check in! 的解决方法:重新更改本地代码
  5. Google 重磅发布 Flutter 2 !一套代码横扫 5 大系统
  6. php记录上次观看记录,PHP Cookei记录用户历史浏览信息的代码
  7. 根据数据库中的数据构造treeview
  8. python元组可以修改吗_python元组元素可以修改吗
  9. java 并发容器类实验_Java多线程并发编程中并发容器第二篇之List的并发类讲解...
  10. IPTV机顶盒刷机过程--山东电信【天邑TY608】
  11. html5 css3 javascript从入门到精通,HTML5+CSS3+JavaScript从入门到精通(微课精编版)
  12. struts2拦截器的使用及作用
  13. (声明)“天外野草”为本人今后的笔名以及网名
  14. LaTeX 修改图片标题字体大小
  15. 超星学习通小助手多线程工具Python
  16. TiFlink: 使用 TiKV 和 Flink 实现强一致的物化视图
  17. c语言求解三角形的重心,计算几个三角形的重心
  18. 山河盟:人类为大地母亲准备的一份礼物
  19. b-tree和b+tree以及mysql为什么使用了b+树
  20. 未动科技与地平线达成战略合作,共推全场景智能驾驶加速落地

热门文章

  1. 你需要来自TrustedInstaller的权限才能对此文件夹进行更改(已解决)
  2. 机器人布里茨哪个皮肤好看_LOL全英雄皮肤盘点推荐D32:蒸汽机器人布里茨 苹果机器人...
  3. C++primer Plus课本代码(第11章)
  4. 小游戏流量变现瓶颈,新增长点是超级App?
  5. 让机器辨别气味:利用图神经网络预测分子的嗅觉属性
  6. 人工神经网络与遗传算法,神经网络和算法的关系
  7. 吐血实践-TiDB离线安装
  8. [Pytorch系列-25]:神经网络基础 - 单个无激活函数的神经元实现简单线性回归 - 2
  9. 如何把录音生成二维码,用微信扫一下就能听?分享语音音频转二维码的方法和技术原理
  10. 一个jsp+cgi+html小工程,完成注册,后台使用CGI