请注意这一行:html_page = etree.HTML(response_page.text),

etree.HTML()可以用来解析字符串格式的HTML文档对象,将传进去的字符串转变成_Element对象

说以你输出的是_Element对象,接下来就可以按照etree特定的语法规则去提取数据。

举例:

import requestsurl = 'https://www.baidu.com'
res = requests.get(url)
html = res.text
print(type(html))
print(html)

输出:

我们可以看到输出的是字符串。

接着我们使用etree格式化

import requests
from lxml import etreeurl = 'https://www.baidu.com'
res = requests.get(url)
html = etree.HTML(res.text)
print(type(html))
print(html)

输出:

利用xpath和tostring()组合提取即可。

如何利用组合呢?

例:

from lxml import etreehtml = """
<html><body><h1>Hello,World</h1><div>轻点击<a>这条</a>链接</div></body>
</html>
"""
"""
_element = etree.HTML(html)
_text = _element.xpath('//div/text()')
print(_text)

输出:

会得不到我们想要的内容,

这个时候我们需要利用tostring()

from lxml import etreehtml = """
<html><body><h1>Hello,World</h1><div>轻点击<a>这条</a>链接</div></body>
</html>
"""
_element = etree.HTML(html)
_text = _element.xpath('*//div')
ent_text = etree.tostring(_text[0],method='text',encoding='utf-8')
print(ent_text.decode())

最终得到我们想要的结果。

使用requests.get得到<Element html at 0x271cec68f48什么意思?相关推荐

  1. XSLT教程 [转]

    XSLT教程 XSL代表可扩充样式表语言 为了适应基于XML的样式表语言的需要,万维网联盟(W3C)开始发展XSL. XSLT代表XSL的变革.在这个教程里,你会学到如何通过XSLT把XML文档转换成 ...

  2. crossorigin

    crossorigin属性 在HTML5中, <img>, <video> or <script>可以跨域, 并且有crossorigin属性,可以配置CORS(C ...

  3. 关于python爬虫爬取小说

    写了一个下载小说的爬虫,具体代码如下: 现在就是有一个问题,如何在不打乱章节顺序的情况下提高爬取的速度呢??? from urllib.parse import quote import reques ...

  4. 模块(序列化(jsonpickle)+XML+requests)

    一.序列化模块 Python中用于序列化的两个模块: json     跨平台跨语言的数据传输格式,用于[字符串]和 [python基本数据类型] 间进行转换 pickle   python内置的数据 ...

  5. python+requests接口自动化测试框架实例详解教程(米兔888)

    来源:https://my.oschina.net/u/3041656/blog/820023 源码:https://pan.baidu.com/s/1lgIEToiczTvvjy--p-N20g 提 ...

  6. python爬虫基础(二)~工具包: 下载包requests、urllib和解析包BeautifulSoup(bs4)、lxml.etree.xpath

    目录 1. html下载工具包 1.1 urllib工具包 1.1.1 urllib错误一 1.2 Requests工具包 1.2.1 requests错误一 2. html解析工具包 2.1 Bea ...

  7. python3 requests 动态网页post提交数据_Python爬虫三:动态网页爬虫

    1. 利用API爬取数据 有时,使用BeautifulSoup解析和提取数据后,输出结果为空.这是由于网页使用了另一种加载数据的方式--通过API加载数据.API(Application Progra ...

  8. Python使用lxml模块和Requests模块抓取HTML页面的教程

    Web抓取 Web站点使用HTML描述,这意味着每个web页面是一个结构化的文档.有时从中 获取数据同时保持它的结构是有用的.web站点不总是以容易处理的格式, 如 csv 或者 json 提供它们的 ...

  9. 讲讲python使用xpath中遇到[Element a at 0x39a9a80到底是什么

    写在前面 本人的所有文章只适合善于使用百度的人,因为所有基础知识个个博客复制粘贴了无数遍,我这里均不会详细讲述. 在这里我表示所有不经验证的转载都是耍流氓,把一篇篇错误的文章转载的到处都是,不知道浪费 ...

最新文章

  1. jquery 1.6以上版本 全选
  2. 关于学习Python的一点学习总结(11->字典的应用)
  3. 知乎完成 2.7 亿美元 E 轮融资 加速建设全民知识内容平台(附周源全员邮件全文)...
  4. Codeforces Round #462 (Div. 2) C. A Twisty Movement dp + 思维转换
  5. 使用faker生成测试数据
  6. linux批量切割图片,MAC中用Shell脚本批量裁剪各种尺寸的App图标
  7. 演练 青春不常在 0915
  8. 天地图专题六:复杂操作,天地图上标注点的连线以及模拟点击事件
  9. Kubernetes1.91(K8s)安装部署过程(一)--证书安装
  10. ES5和ES6类的知识
  11. 图像处理------简单脸谱检测算法
  12. Android 用户可以直接在搜索页面上安装 app 了
  13. 2021-09-15频繁项集的评估标准
  14. tensorflow 77 tensorflow android版本demo win10 下 编译
  15. api与密度转换公式_API、比重换算表
  16. ZoneAlarm 不错的防火墙软件
  17. WPF Effect (一)
  18. vue 播放器视频插件 之 vue-video-player 铺满全屏自动播放
  19. 解救IP被封的服务器
  20. Genymotion 各对应版本

热门文章

  1. Unity由于找不到MSVCP120.dll,无法继续执行代码
  2. EBS 开发套件 Oracle Developer Suite 10g 安装
  3. 米家接入HomeKit系列三:HomeAssistant接入米家网关
  4. mmdetection3d的安装
  5. 日语配合计算机应用技术,基于计算机协同工作技术的日语语料库构建及应用
  6. Vue7 异步加载 懒加载
  7. 混乱与秩序2服务器维护,混沌与秩序2救赎世界BOSS刷新位置时间大全
  8. 深入解读A/B 测试的统计学原理
  9. 对“初链”混合共识、双链结构和抗ASIC挖矿算法的详解
  10. There is no getter for property named 'DEPARTMENT_ID' in 'class com.sccy.hr.model.RewardsPunishment'