Python操作lxml库(Xpath篇)
活动地址:CSDN21天学习挑战赛
学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。
学习日记
目录
学习日记
一、Xpath概述
1、Xpath简介
2、 Xpath的安装
二、Xpath的常用规则
1、路径查找
2、节点查找
3、未知节点
4、获取节点中的文本
5、选取多个路径
Python操作lxml库文章集合
一、Xpath概述
1、Xpath简介
Xpath
(XML Path Language) 是一门在 XML 文档中查找信息的语言,可以用来在XML文档中对元素和属性进行遍历。XPath 用于在 XML 文档中通过元素和属性进行导航。其是一种路径语言(XML Path Language),用来确定XML文档中某部分的位置。XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointer与XSL间的语法模型。但是XPath很快的被开发者采用来当作小型*查询语言被广泛使用。
2、 Xpath的安装
Xpath只是
lxml
库中的一个模块,想要使用Xpath
那么就需要安装lxml
库pip install lxml
二、Xpath的常用规则
1、路径查找
Xpath 的主要语法
2、节点查找
查找节点的一些语法
3、未知节点
当我们匹配时会出现路径不确定的情况,这个时候我们就要涉及到匹配未知节点。匹配未知节点也有对应的语法。
4、获取节点中的文本
通过 属性方法可以获取属性内的内容,但是位于节点之间的内容无法获取到,这个时候就可以通过
text()
与string()
方法来获得其中的文本。
通过 text()
获取某个节点中的文本
In [1]: page.xpath('//li/a[3]/text()') Out[1]: ['霸道总裁爱上我', '斗罗大陆'] #通过 text() 属性可以很轻松的获取标签之间的文本。
通过 string()
获取某个节点中的文本
In [1]: page.xpath('string(//li[1]/a[3])') Out[1]: '霸道总裁爱上我'
5、选取多个路径
需要同时查找多个条件时可以通过在路径表达式中使用管道符("|"),选取若干个路径
In [1]: page.xpath('XXXXXXX | XXXXXXXtext()')
Out[1]: ['']
Python操作lxml库文章集合
Python操作lxml库(基础篇)
Python操作lxml库(Xpath篇)
Python操作lxml库(Xpath篇)相关推荐
- Python操作lxml库(基础篇)
活动地址:CSDN21天学习挑战赛 学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩:迟一天就多一天平庸的困扰. 学习日记 目录 目录 学习日记 一.lxml库概述 1.lxml库介绍 2.l ...
- python添加lxml库_Python lxml库简介
lxml是一个Python库,使用它可以轻松处理XML和HTML文件,还可以用于web爬取.市面上有很多现成的XML解析器,但是为了获得更好的结果,开发人员有时更愿意编写自己的XML和HTML解析器. ...
- python的lxml库简介_Python lxml库简介
Python部落(python.freelycode.com)组织翻译,禁止转载,欢迎转发. lxml是一个Python库,使用它可以轻松处理XML和HTML文件,还可以用于web爬取.市面上有很多现 ...
- 最全整理!Python 操作 Excel 库 xlrd与xlwt 常用操作详解!
来源/早起Python 在之前的Python办公自动化系列文章中,我们已经相信介绍了openyxl.xlsxwriter等Python操作Excel库. 相信大家对于几个库的差异与使用场景有了一定的认 ...
- python excel库pip install_超全整理|Python 操作 Excel 库 xlwings 常用操作详解!
原标题:超全整理|Python 操作 Excel 库 xlwings 常用操作详解! 来源:早起Python 作者:陈熹.刘早起 大家好,我是早起. 在之前的文章中我们曾详细的讲解了如何使用openp ...
- python操作postgre库,批量进行增删改查和计时比较效率,封装好的普通增删改查和批量增删改查类拿来即用
python操作postgre库,批量进行增删改查,封装类,拿来即用 1. 新建postgre.py文件,使用psycopg2封装普通增删改查和批量增删改查类 postgre.py import ps ...
- 21天Python学习——lxml库与Xpath提取网页数据
活动地址:CSDN21天学习挑战赛 一.爬虫提取网页数据的流程图 图源:100天精通Python(爬虫篇)--第45天:lxml库与Xpath提取网页数据_无 羡ღ的博客-CSDN博客_pyt ...
- python网络爬虫系列教程——python中lxml库应用全解(xpath表达式)
全栈工程师开发手册 (作者:栾鹏) python教程全解 python网络爬虫lxml库的应用全解. 在线安装方法:cmd中输入"pip install lxml" 离线安装,下载 ...
- 21天学习挑战赛——Python爬虫 lxml库与Xpath提取网页数据
目录 1. 爬虫提取网页数据流程图 2. lxml库 2.1 解析HTML网页 3. Xpath 3.1 选取节点 3.2 谓语 3.3 选取未知节点 3.4 选取若干元素 4. Xpath实战 4 ...
最新文章
- 一个隐马尔科夫模型的应用实例:中文分词
- date类型_06076.1.0如何将ORC格式且使用了DATE类型的Hive表转为Parquet表
- linux压缩一个文件的命令行,linux下用命令行解压缩文件
- Windows Media Player 损坏提示“出现了内部应用程序错误解决方法
- shiro 实现登录验证功能
- java分页 jar_零基础学java之javaEE,分页
- Linux网络编程——tcp并发服务器(多线程)
- 时速云入选2018中国企业服务创新成长50强
- mysql 存储过程 输出table_mysql 存储过程 没有结果输出。
- max open files mysql_MySQL 重启提示超出可打开文件数限制|Buffered warning: Changed limits: max_open_files: 1024...
- php对json数据处理,在PHP中处理JSON的后期数据
- 1、javascript的继承function
- [Swift]LeetCode188. 买卖股票的最佳时机 IV | Best Time to Buy and Sell Stock IV
- MySql常用函数汇总
- YUV420转RGB888
- R如何查看缺失值和处理缺失值
- 计算机登录网站慢手机快,手机WiFi网速慢,简单输入几个数字立马变快!
- 教程:GIMP中怎样移动选区
- Oracle 查询表空间及某个表的大小
- 悦诗风吟网络营销的目标_悦诗风吟七彩泥膜术线上推广方案