python lxml解析html,当使用lxml.html解析html时,等同于InnerHTML
我正在编写一个使用lxml.html解析网页的脚本。在我的时间里,我做了一些漂亮的工作,但是现在由于它的速度,我正在尝试使用lxml。
我想知道库中最明智的方法是做与Javascript的InnerHtml等价的事情,即检索或设置标记的完整内容。
A title
Some text
因此,InnerHtml是:
A title
Some text
我可以使用hacks(转换成string/regex等)来实现,但我假设有一种正确的方法可以使用由于不熟悉而丢失的库来实现。谢谢你的帮助。
编辑:感谢pobk如此快速有效地向我展示了这方面的方法。对任何人来说,这就是我的结局:from lxml import html
from cStringIO import StringIO
t = html.parse(StringIO(
"""
A title
Some text
Untagged text
Unclosed p tag
"""))
root = t.getroot()
body = root.body
print (element.text or '') + ''.join([html.tostring(child) for child in body.iterdescendants()])
请注意,lxml.html解析器将修复未关闭的标记,因此如果这是一个问题,请小心。
python lxml解析html,当使用lxml.html解析html时,等同于InnerHTML相关推荐
- Python爬虫高级库之一的lxml库中,ET.parse()是一个非常重要的方法。它可以将任意XML或HTML格式的文档解析成一个ElementTree对象,...
Python爬虫高级库之一的lxml库中,ET.parse()是一个非常重要的方法.它可以将任意XML或HTML格式的文档解析成一个ElementTree对象,方便我们对结构化的数据进行处理和分析.在 ...
- python xpath语法-Python爬虫之XPath语法和lxml库的用法
本来打算写的标题是XPath语法,但是想了一下Python中的解析库lxml,使用的是Xpath语法,同样也是效率比较高的解析方法,所以就写成了XPath语法和lxml库的用法 安装 为什么要用这个库 ...
- Python爬虫(十二)_XPath与lxml类库
Python学习指南 有同学说,我正则用的不好,处理HTML文档很累,有没有其他的方法? 有!那就是XPath,我们可以用先将HTML文档转换成XML文档,然后用XPath查找HTML节点或元素. 什 ...
- Python常用插件类举,lxml+Xpath实现爬虫,使用Xpath爬取链家二手房源信息
目录 一.XPath 二.XPath 常用规则 三.在谷歌浏览器安装XPath插件 四.Python爬虫常用插件 五.使用Xpath解析 六.Xpath匹配示例 1.查看所有的标签(如p.a.li标签 ...
- 【Python】数据提取xpath和lxml模块(豆瓣电影排行榜的爬虫)
xpath xpath:一门从html中提取数据的语言 xpath语法 1.选择节点(标签) /html/head/meta :能够选中html下的head下的所有的meta标签 2.// :能 ...
- Python 第三方模块之 beautifulsoup(bs4)- 解析 HTML
简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据.官方解释如下:官网文档 Beautiful Soup提供一些简单的.python式的函数用来处理导航.搜索. ...
- python自带网页解析器_Python爬虫Chrome网页解析工具-XPath Helper
之前就说过Python爬虫中Xpath的用法,相信每一个写爬虫.或者是做网页分析的人,都会因为在定位.获取XPath路径上花费大量的时间,在没有这些辅助工具的日子里,我们只能通过搜索HTML源代码,定 ...
- python解析xml选用什么模块_python 解析xml需要什么模块
Python的标准库中,提供了6种可以用于处理XML的包. (1)xml.dom xml.dom实现的是W3C制定的DOM API.如果你习惯于使用DOM API或者有人要求这这样做,可以使用这个包. ...
- Python 常见的 170 道面试题全解析:2022 版
Python 常见的 170 道面试题全解析:2019 版 语言特性 1.谈谈对 Python 和其他语言的区别 答:Python 是一门语法简洁优美,功能强大无比,应用领域非常广泛,具有强大完备的第 ...
- 【Python从零到壹】使用XPath解析数据爬取起点小说网数据
我们已经可以从网上爬取数据了,现在我们来看看如何对数据解析 文章目录 1. xpath 的介绍 优点: 安装lxml库 XML的树形结构: 选取节点的表达式举例: 2. 爬取起点小说网 在浏览器中获取 ...
最新文章
- 关于might_sleep的一点说明【转】
- Java继承_Java面试题总结(一)
- python3 log_Python3 log10()函数简单用法
- Google大数据技术架构探秘
- 团队第二次冲刺第三天
- ASP.NET 中处理页面“回退”的方法
- 使用IntelliJ IDEA碰到的问题总结
- 初步使用计算机学设计,幼儿园计算机教学设计参考
- (转)Managed DirectX +C# 开发(入门篇)(六)
- 电子测量与仪器第四版pdf_电子技术经典资料汇总:模电篇800M
- 设计模式——建造者模式 1
- Web App开发入门
- Spring Boot整合Druid的使用以及步骤
- NotifyIcon实现托盘程序
- 470款日系文艺LR预设电影质感Lightroom预设PR/PS/AE/FCPX/LUT预设
- 计算机毕业设计springboot微信小程序购物商城源码
- 我和计算机专业的故事
- 微信小程序制作顶部导航栏
- 正则表达式匹配行首和行尾
- matlab 2016a破解中文版安装教程
热门文章
- python123判断性别程序_听说胎心能够预测宝宝性别?这是真的吗?
- java se 8 新特性_javase8-sample
- html1怎样插入视频,HTML视频教程,第1章 HTML初识
- c语言多线程面试题,iOS面试题--网络多线程
- 学习笔记--asp.net母版页(转自msdn,仅为自己学习存储和有意读者使用)
- oracle ogg 12安装,Oracle GoldenGate Studio 12.2.1.3安装
- java中字符 的含义 有什么作用_Java中字符串常见题之String相关讲解
- 什么是*args和**kwargs?
- 解决gensim报错AttributeError: type object ‘Word2Vec‘ has no attribute ‘load_word2vec_format‘
- 安卓系统为何这么容易被黑客入侵