【数据分析】⚠️走进数据分析 3⚠️ Beautiful Soup 提取页面信息
【数据分析】⚠️走进数据分析 3⚠️ Beautiful Soup 提取页面信息
- 概述
- Beautiful Soup
- 提取页面信息
概述
数据分析 (Data Analyze) 可以在工作中的各个方面帮助我们. 本专栏为量化交易专栏下的子专栏, 主要讲解一些数据分析的基础知识.
Beautiful Soup
Beautiful 是一个可以从 HTML 或 XML 文件中提取数据的 Pyhton 库. 简单来说, 它能将 HTML 的标签文件解析成树形结构, 然后方便的获取到指定标签的对应属性.
安装:
pip install beautifulsoup4
例子:
from bs4 import BeautifulSoup# 创建一段HTML代码
html_content = """
<html>
<head>
<title>我是小白呀的博客</title>
</head>
<body>
<p class="redColor">个人介绍</p>
</body>
</html>
"""# 生成soup
soup = BeautifulSoup(html_content, "html.parser")# 调试输出
print(soup.title) # 标题
print("name:", soup.title.name)
print(soup.head) # 头部
print("name:", soup.head.name)
print(soup.p) # 段落
print("name:", soup.p.name)
print("class:", soup.p.attrs)
输出结果:
<title>我是小白呀的博客</title>
name: title
<head>
<title>我是小白呀的博客</title>
</head>
name: head
<p class="redColor">个人介绍</p>
name: p
class: {'class': ['redColor']}
class: ['redColor']
提取页面信息
例子:
from urllib import request
from bs4 import BeautifulSoup# 网页
url = "https://iamarookie.blog.csdn.net/"# 发送请求
response = request.urlopen(url)# 获取内容
html_content = response.read().decode("utf-8")# 生成soup
soup = BeautifulSoup(html_content)# 解析博客名字
blog_name = soup.find("div", attrs={"class":"user-profile-head-name"}).text
print("博客名字:\n", blog_name)# 解析博客签名
blog_signature = soup.find("div", attrs={"class":"user-profile-head-introduction"}).text
print("博客签名:\n", blog_signature.strip())
输出结果:
博客名字:我是小白呀 码龄2年
博客签名:吾本布衣, 出自纽约, 四周大山. 箪瓢屡空, 环堵萧然, 不弊风日. 吾好读书, 滴水石穿, 笨鸟先飞, 求知不断, 方能立足. 不羡孔北海之座上客常满, 但求吾辈架上书常在. 涸辙遗鲋, 暮成枯, 人而无志, 与彼何殊. Self-study Computer Science. 愿为 open source 自效微力. 天高地阔,欲往观之. 因为啥也不会, 默默做一只小白
【数据分析】⚠️走进数据分析 3⚠️ Beautiful Soup 提取页面信息相关推荐
- python爬虫之Beautiful Soup库,基本使用以及提取页面信息
一.Beautiful Soup简介 爬虫正则表达式参考:Python 爬虫正则表达式和re库 在爬虫过程中,可以利用正则表达式去提取信息,但是有些人觉得比较麻烦.因为花大量时间分析正则表达式.这时候 ...
- 三、Beautiful Soup解析库
一.Beautiful Soup介绍与安装 1,Beautiful Soup介绍 答:Beautiful Soup是一个可以从HTML或XML文件中提取数据的Python库 2,Beautiful S ...
- 用Beautiful Soup进行屏幕抓取
数据抓取操作步骤 创建用于发送HTTP请求时将用到的所有值 发出HTTP请求并下载所有数据 解析这些数据文件中需要的数据, 具体操作步骤 首先需要弄清需要访问哪个URL以及需要哪种HTTP方法.HTT ...
- 【数据分析】走进数据分析 5 指标介绍
[数据分析]走进数据分析 5 指标介绍 概述 基础指标 DUA 留存 渗透 页面浏览指标 PV UV Depth of Visit 商业化指标 CTR ARPU CPM CPC ROI 概述 数据分析 ...
- Python爬虫学习之数据提取(Beautiful Soup)
Python爬虫学习之数据提取Beautiful Soup 前期回顾 概述 解析器 准备工作 实例 节点选择器 方法选择器 find_all find 总结 前期回顾 Python爬虫学习之reque ...
- Python爬虫之(八)数据提取-Beautiful Soup
Beautiful Soup的简介 Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索.修改分析树等功能.它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单 ...
- python beautifulsoup_Python爬虫利器:Beautiful Soup的使用(一)
上一次的爬取网易新闻案例,我们使用到了一个解析 HTML 的库:Beautiful Soup.本次跟大家分享一下关于这个库的一些用法. Beautiful Soup 简介: Beautiful Sou ...
- 【Python beautiful soup】如何用beautiful soup 解析HTML内容
美丽汤(Beautiful Soup)是一个流行的Python库,用于从HTML或XML文件中提取数据.它将复杂的HTML文件转化为一个Python对象,使得用户可以更方便地解析.搜索和修改HTML内 ...
- Python爬虫利器之Beautiful Soup的全世界最强用法 五百行文章!
0. 前言 爬虫是一个非常有意思的东西,比如自己做的一个网页上面什么数据都没有就可以爬虫别人的 然后进行去重 数据分析等等 在这里因为爬虫涉及到的方面非常多 1. Beautiful Soup的简介 ...
- python爬虫beautifulsoup实例-Python爬虫学习(二)使用Beautiful Soup库
(一)使用Beautiful Soup库(默认将HTML转换为utf-8编码) 1,安装Beautiful Soup库:pip install beautifulsoup4 2,简单使用: impor ...
最新文章
- 反射 -- 业务需求:执行某个类中全部的以test为开头的无参数无返回值的非静态方法。...
- SpringBoot—分层结构
- redis连接池操作
- [UE4] 通过 Git 进行版本控制时的报错 No assets to check in! 的解决方法:重新更改本地代码
- Google 重磅发布 Flutter 2 !一套代码横扫 5 大系统
- php记录上次观看记录,PHP Cookei记录用户历史浏览信息的代码
- 根据数据库中的数据构造treeview
- python元组可以修改吗_python元组元素可以修改吗
- java 并发容器类实验_Java多线程并发编程中并发容器第二篇之List的并发类讲解...
- IPTV机顶盒刷机过程--山东电信【天邑TY608】
- html5 css3 javascript从入门到精通,HTML5+CSS3+JavaScript从入门到精通(微课精编版)
- struts2拦截器的使用及作用
- (声明)“天外野草”为本人今后的笔名以及网名
- LaTeX 修改图片标题字体大小
- 超星学习通小助手多线程工具Python
- TiFlink: 使用 TiKV 和 Flink 实现强一致的物化视图
- c语言求解三角形的重心,计算几个三角形的重心
- 山河盟:人类为大地母亲准备的一份礼物
- b-tree和b+tree以及mysql为什么使用了b+树
- 未动科技与地平线达成战略合作,共推全场景智能驾驶加速落地
热门文章
- 你需要来自TrustedInstaller的权限才能对此文件夹进行更改(已解决)
- 机器人布里茨哪个皮肤好看_LOL全英雄皮肤盘点推荐D32:蒸汽机器人布里茨 苹果机器人...
- C++primer Plus课本代码(第11章)
- 小游戏流量变现瓶颈,新增长点是超级App?
- 让机器辨别气味:利用图神经网络预测分子的嗅觉属性
- 人工神经网络与遗传算法,神经网络和算法的关系
- 吐血实践-TiDB离线安装
- [Pytorch系列-25]:神经网络基础 - 单个无激活函数的神经元实现简单线性回归 - 2
- 如何把录音生成二维码,用微信扫一下就能听?分享语音音频转二维码的方法和技术原理
- 一个jsp+cgi+html小工程,完成注册,后台使用CGI