使用requests.get得到＜Element html at 0x271cec68f48什么意思？

请注意这一行：html_page = etree.HTML(response_page.text)，

etree.HTML()可以用来解析字符串格式的HTML文档对象，将传进去的字符串转变成_Element对象

说以你输出的是_Element对象,接下来就可以按照etree特定的语法规则去提取数据。

举例：

import requestsurl = 'https://www.baidu.com'
res = requests.get(url)
html = res.text
print(type(html))
print(html)

输出：

我们可以看到输出的是字符串。

接着我们使用etree格式化

import requests
from lxml import etreeurl = 'https://www.baidu.com'
res = requests.get(url)
html = etree.HTML(res.text)
print(type(html))
print(html)

输出：

利用xpath和tostring()组合提取即可。

如何利用组合呢？

例：

from lxml import etreehtml = """
<html><body><h1>Hello,World</h1><div>轻点击<a>这条</a>链接</div></body>
</html>
"""
"""
_element = etree.HTML(html)
_text = _element.xpath('//div/text()')
print(_text)

输出：

会得不到我们想要的内容，

这个时候我们需要利用tostring()

from lxml import etreehtml = """
<html><body><h1>Hello,World</h1><div>轻点击<a>这条</a>链接</div></body>
</html>
"""
_element = etree.HTML(html)
_text = _element.xpath('*//div')
ent_text = etree.tostring(_text[0],method='text',encoding='utf-8')
print(ent_text.decode())

最终得到我们想要的结果。

使用requests.get得到＜Element html at 0x271cec68f48什么意思？相关推荐

XSLT教程 [转]
XSLT教程 XSL代表可扩充样式表语言为了适应基于XML的样式表语言的需要,万维网联盟(W3C)开始发展XSL. XSLT代表XSL的变革.在这个教程里,你会学到如何通过XSLT把XML文档转换成 ...
crossorigin
crossorigin属性在HTML5中, <img>, <video> or <script>可以跨域, 并且有crossorigin属性,可以配置CORS(C ...
关于python爬虫爬取小说
写了一个下载小说的爬虫,具体代码如下: 现在就是有一个问题,如何在不打乱章节顺序的情况下提高爬取的速度呢??? from urllib.parse import quote import reques ...
模块（序列化（jsonpickle）+XML+requests）
一.序列化模块 Python中用于序列化的两个模块: json 跨平台跨语言的数据传输格式,用于[字符串]和 [python基本数据类型] 间进行转换 pickle python内置的数据 ...
python+requests接口自动化测试框架实例详解教程（米兔888）
来源:https://my.oschina.net/u/3041656/blog/820023 源码:https://pan.baidu.com/s/1lgIEToiczTvvjy--p-N20g 提 ...
python爬虫基础(二)～工具包: 下载包requests、urllib和解析包BeautifulSoup(bs4)、lxml.etree.xpath
目录 1. html下载工具包 1.1 urllib工具包 1.1.1 urllib错误一 1.2 Requests工具包 1.2.1 requests错误一 2. html解析工具包 2.1 Bea ...
python3 requests 动态网页post提交数据_Python爬虫三：动态网页爬虫
1. 利用API爬取数据有时,使用BeautifulSoup解析和提取数据后,输出结果为空.这是由于网页使用了另一种加载数据的方式--通过API加载数据.API(Application Progra ...
Python使用lxml模块和Requests模块抓取HTML页面的教程
Web抓取 Web站点使用HTML描述,这意味着每个web页面是一个结构化的文档.有时从中获取数据同时保持它的结构是有用的.web站点不总是以容易处理的格式, 如 csv 或者 json 提供它们的 ...
讲讲python使用xpath中遇到[Element a at 0x39a9a80到底是什么
写在前面本人的所有文章只适合善于使用百度的人,因为所有基础知识个个博客复制粘贴了无数遍,我这里均不会详细讲述. 在这里我表示所有不经验证的转载都是耍流氓,把一篇篇错误的文章转载的到处都是,不知道浪费 ...

使用requests.get得到＜Element html at 0x271cec68f48什么意思？

使用requests.get得到＜Element html at 0x271cec68f48什么意思？相关推荐

最新文章

热门文章