我正在编写一个使用lxml.html解析网页的脚本。在我的时间里,我做了一些漂亮的工作,但是现在由于它的速度,我正在尝试使用lxml。

我想知道库中最明智的方法是做与Javascript的InnerHtml等价的事情,即检索或设置标记的完整内容。

A title

Some text

因此,InnerHtml是:

A title

Some text

我可以使用hacks(转换成string/regex等)来实现,但我假设有一种正确的方法可以使用由于不熟悉而丢失的库来实现。谢谢你的帮助。

编辑:感谢pobk如此快速有效地向我展示了这方面的方法。对任何人来说,这就是我的结局:from lxml import html

from cStringIO import StringIO

t = html.parse(StringIO(

"""

A title

Some text

Untagged text

Unclosed p tag

"""))

root = t.getroot()

body = root.body

print (element.text or '') + ''.join([html.tostring(child) for child in body.iterdescendants()])

请注意,lxml.html解析器将修复未关闭的标记,因此如果这是一个问题,请小心。

python lxml解析html,当使用lxml.html解析html时,等同于InnerHTML相关推荐

  1. Python爬虫高级库之一的lxml库中,ET.parse()是一个非常重要的方法。它可以将任意XML或HTML格式的文档解析成一个ElementTree对象,...

    Python爬虫高级库之一的lxml库中,ET.parse()是一个非常重要的方法.它可以将任意XML或HTML格式的文档解析成一个ElementTree对象,方便我们对结构化的数据进行处理和分析.在 ...

  2. python xpath语法-Python爬虫之XPath语法和lxml库的用法

    本来打算写的标题是XPath语法,但是想了一下Python中的解析库lxml,使用的是Xpath语法,同样也是效率比较高的解析方法,所以就写成了XPath语法和lxml库的用法 安装 为什么要用这个库 ...

  3. Python爬虫(十二)_XPath与lxml类库

    Python学习指南 有同学说,我正则用的不好,处理HTML文档很累,有没有其他的方法? 有!那就是XPath,我们可以用先将HTML文档转换成XML文档,然后用XPath查找HTML节点或元素. 什 ...

  4. Python常用插件类举,lxml+Xpath实现爬虫,使用Xpath爬取链家二手房源信息

    目录 一.XPath 二.XPath 常用规则 三.在谷歌浏览器安装XPath插件 四.Python爬虫常用插件 五.使用Xpath解析 六.Xpath匹配示例 1.查看所有的标签(如p.a.li标签 ...

  5. 【Python】数据提取xpath和lxml模块(豆瓣电影排行榜的爬虫)

    xpath xpath:一门从html中提取数据的语言 xpath语法 1.选择节点(标签)    /html/head/meta :能够选中html下的head下的所有的meta标签 2.// :能 ...

  6. Python 第三方模块之 beautifulsoup(bs4)- 解析 HTML

    简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下:官网文档 Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索. ...

  7. python自带网页解析器_Python爬虫Chrome网页解析工具-XPath Helper

    之前就说过Python爬虫中Xpath的用法,相信每一个写爬虫.或者是做网页分析的人,都会因为在定位.获取XPath路径上花费大量的时间,在没有这些辅助工具的日子里,我们只能通过搜索HTML源代码,定 ...

  8. python解析xml选用什么模块_python 解析xml需要什么模块

    Python的标准库中,提供了6种可以用于处理XML的包. (1)xml.dom xml.dom实现的是W3C制定的DOM API.如果你习惯于使用DOM API或者有人要求这这样做,可以使用这个包. ...

  9. Python 常见的 170 道面试题全解析:2022 版

    Python 常见的 170 道面试题全解析:2019 版 语言特性 1.谈谈对 Python 和其他语言的区别 答:Python 是一门语法简洁优美,功能强大无比,应用领域非常广泛,具有强大完备的第 ...

  10. 【Python从零到壹】使用XPath解析数据爬取起点小说网数据

    我们已经可以从网上爬取数据了,现在我们来看看如何对数据解析 文章目录 1. xpath 的介绍 优点: 安装lxml库 XML的树形结构: 选取节点的表达式举例: 2. 爬取起点小说网 在浏览器中获取 ...

最新文章

  1. 关于might_sleep的一点说明【转】
  2. Java继承_Java面试题总结(一)
  3. python3 log_Python3 log10()函数简单用法
  4. Google大数据技术架构探秘
  5. 团队第二次冲刺第三天
  6. ASP.NET 中处理页面“回退”的方法
  7. 使用IntelliJ IDEA碰到的问题总结
  8. 初步使用计算机学设计,幼儿园计算机教学设计参考
  9. (转)Managed DirectX +C# 开发(入门篇)(六)
  10. 电子测量与仪器第四版pdf_电子技术经典资料汇总:模电篇800M
  11. 设计模式——建造者模式 1
  12. Web App开发入门
  13. Spring Boot整合Druid的使用以及步骤
  14. NotifyIcon实现托盘程序
  15. 470款日系文艺LR预设电影质感Lightroom预设PR/PS/AE/FCPX/LUT预设
  16. 计算机毕业设计springboot微信小程序购物商城源码
  17. 我和计算机专业的故事
  18. 微信小程序制作顶部导航栏
  19. 正则表达式匹配行首和行尾
  20. matlab 2016a破解中文版安装教程

热门文章

  1. python123判断性别程序_听说胎心能够预测宝宝性别?这是真的吗?
  2. java se 8 新特性_javase8-sample
  3. html1怎样插入视频,HTML视频教程,第1章 HTML初识
  4. c语言多线程面试题,iOS面试题--网络多线程
  5. 学习笔记--asp.net母版页(转自msdn,仅为自己学习存储和有意读者使用)
  6. oracle ogg 12安装,Oracle GoldenGate Studio 12.2.1.3安装
  7. java中字符 的含义 有什么作用_Java中字符串常见题之String相关讲解
  8. 什么是*args和**kwargs?
  9. 解决gensim报错AttributeError: type object ‘Word2Vec‘ has no attribute ‘load_word2vec_format‘
  10. 安卓系统为何这么容易被黑客入侵