活动地址:CSDN21天学习挑战赛

学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩;迟一天就多一天平庸的困扰。

学习日记

目录

学习日记

一、Xpath概述

1、Xpath简介

2、 Xpath的安装

二、Xpath的常用规则

1、路径查找

2、节点查找

3、未知节点

4、获取节点中的文本

5、选取多个路径

Python操作lxml库文章集合


一、Xpath概述

1、Xpath简介

  Xpath(XML Path Language) 是一门在 XML 文档中查找信息的语言,可以用来在XML文档中对元素和属性进行遍历。XPath 用于在 XML 文档中通过元素和属性进行导航。其是一种路径语言(XML Path Language),用来确定XML文档中某部分的位置。

  XPath基于XML的树状结构,提供在数据结构树中找寻节点的能力。起初XPath的提出的初衷是将其作为一个通用的、介于XPointerXSL间的语法模型。但是XPath很快的被开发者采用来当作小型*查询语言被广泛使用。

2、 Xpath的安装

Xpath只是 lxml 库中的一个模块,想要使用 Xpath 那么就需要安装 lxml 库

pip install lxml

二、Xpath的常用规则

1、路径查找

Xpath 的主要语法

2、节点查找

查找节点的一些语法

3、未知节点

当我们匹配时会出现路径不确定的情况,这个时候我们就要涉及到匹配未知节点。匹配未知节点也有对应的语法。

4、获取节点中的文本

通过 属性方法可以获取属性内的内容,但是位于节点之间的内容无法获取到,这个时候就可以通过 text() 与 string() 方法来获得其中的文本。

通过 text() 获取某个节点中的文本

In [1]: page.xpath('//li/a[3]/text()')
Out[1]: ['霸道总裁爱上我', '斗罗大陆']
#通过 text() 属性可以很轻松的获取标签之间的文本。

通过 string() 获取某个节点中的文本

In [1]: page.xpath('string(//li[1]/a[3])')
Out[1]: '霸道总裁爱上我'

5、选取多个路径

需要同时查找多个条件时可以通过在路径表达式中使用管道符("|"),选取若干个路径

In [1]: page.xpath('XXXXXXX | XXXXXXXtext()')
Out[1]: ['']

Python操作lxml库文章集合

Python操作lxml库(基础篇)

Python操作lxml库(Xpath篇)

Python操作lxml库(Xpath篇)相关推荐

  1. Python操作lxml库(基础篇)

    ​ 活动地址:CSDN21天学习挑战赛 学习的最大理由是想摆脱平庸,早一天就多一份人生的精彩:迟一天就多一天平庸的困扰. 学习日记 目录 目录 学习日记 一.lxml库概述 1.lxml库介绍 2.l ...

  2. python添加lxml库_Python lxml库简介

    lxml是一个Python库,使用它可以轻松处理XML和HTML文件,还可以用于web爬取.市面上有很多现成的XML解析器,但是为了获得更好的结果,开发人员有时更愿意编写自己的XML和HTML解析器. ...

  3. python的lxml库简介_Python lxml库简介

    Python部落(python.freelycode.com)组织翻译,禁止转载,欢迎转发. lxml是一个Python库,使用它可以轻松处理XML和HTML文件,还可以用于web爬取.市面上有很多现 ...

  4. 最全整理!Python 操作 Excel 库 xlrd与xlwt 常用操作详解!

    来源/早起Python 在之前的Python办公自动化系列文章中,我们已经相信介绍了openyxl.xlsxwriter等Python操作Excel库. 相信大家对于几个库的差异与使用场景有了一定的认 ...

  5. python excel库pip install_超全整理|Python 操作 Excel 库 xlwings 常用操作详解!

    原标题:超全整理|Python 操作 Excel 库 xlwings 常用操作详解! 来源:早起Python 作者:陈熹.刘早起 大家好,我是早起. 在之前的文章中我们曾详细的讲解了如何使用openp ...

  6. python操作postgre库,批量进行增删改查和计时比较效率,封装好的普通增删改查和批量增删改查类拿来即用

    python操作postgre库,批量进行增删改查,封装类,拿来即用 1. 新建postgre.py文件,使用psycopg2封装普通增删改查和批量增删改查类 postgre.py import ps ...

  7. 21天Python学习——lxml库与Xpath提取网页数据

    ​ ​ 活动地址:CSDN21天学习挑战赛 一.爬虫提取网页数据的流程图 图源:100天精通Python(爬虫篇)--第45天:lxml库与Xpath提取网页数据_无 羡ღ的博客-CSDN博客_pyt ...

  8. python网络爬虫系列教程——python中lxml库应用全解(xpath表达式)

    全栈工程师开发手册 (作者:栾鹏) python教程全解 python网络爬虫lxml库的应用全解. 在线安装方法:cmd中输入"pip install lxml" 离线安装,下载 ...

  9. 21天学习挑战赛——Python爬虫 lxml库与Xpath提取网页数据

    目录 ​1. 爬虫提取网页数据流程图 2. lxml库 2.1 解析HTML网页 3. Xpath 3.1 选取节点 3.2 谓语 3.3 选取未知节点 3.4 选取若干元素 4. Xpath实战 4 ...

最新文章

  1. 一个隐马尔科夫模型的应用实例:中文分词
  2. date类型_06076.1.0如何将ORC格式且使用了DATE类型的Hive表转为Parquet表
  3. linux压缩一个文件的命令行,linux下用命令行解压缩文件
  4. Windows Media Player 损坏提示“出现了内部应用程序错误解决方法
  5. shiro 实现登录验证功能
  6. java分页 jar_零基础学java之javaEE,分页
  7. Linux网络编程——tcp并发服务器(多线程)
  8. 时速云入选2018中国企业服务创新成长50强
  9. mysql 存储过程 输出table_mysql 存储过程 没有结果输出。
  10. max open files mysql_MySQL 重启提示超出可打开文件数限制|Buffered warning: Changed limits: max_open_files: 1024...
  11. php对json数据处理,在PHP中处理JSON的后期数据
  12. 1、javascript的继承function
  13. [Swift]LeetCode188. 买卖股票的最佳时机 IV | Best Time to Buy and Sell Stock IV
  14. MySql常用函数汇总
  15. YUV420转RGB888
  16. R如何查看缺失值和处理缺失值
  17. 计算机登录网站慢手机快,手机WiFi网速慢,简单输入几个数字立马变快!
  18. 教程:GIMP中怎样移动选区
  19. Oracle 查询表空间及某个表的大小
  20. 悦诗风吟网络营销的目标_悦诗风吟七彩泥膜术线上推广方案

热门文章

  1. PHP数据类型的转换
  2. VMware 虚拟机无法上网,显示“网络电缆被拔出”的问题
  3. 物联网-传输课程设计-数据采集与显示
  4. 免费PDF转换为PPT格式的方法
  5. spring系统级入门学习
  6. 如何更改 Microsoft 帐户管理员名称
  7. SAR图像的干涉相位 matlab_白光干涉仪是如何通过干涉条纹得到表面轮廓的?
  8. 研究生自救指南之学术汇报篇:学术PPT应该怎么做?
  9. 燃料电池专用控制器PowerFCU
  10. 微信无痕清粉分析过程-附源码地址