案例: 使用request + lxml 爬取糗事百科每页的标题数据

代码如下图:

import requests
from lxml import etreefor i in range(0, 3):# 设置user-agentua = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36" }# 生成URLurl = "https://www.qiushibaike.com/8hr/page/" + str(i+1) + "/"print(url)# 获取网页数据response = requests.get(url=url, headers=ua).text# 将html转换成tree对象tree = etree.HTML(response)# 通过xpath表达式,获取标题文本信息title_lst = tree.xpath('//a[@class="recmd-content"]/text()')print('--------------------', len(title_lst))# 打印具体的标题数据for title in title_lst:print(title)

输出结果:打印出页面上的标题数、具体的标题文本信息

python xpath 爬虫小试牛刀相关推荐

  1. python xpath爬虫_Python爬虫(2):XPath语法

    OK,上次我们说到了网页爬虫的一个思路:首先说一下网页爬虫的整个思路方法:先爬取整个网页,也就是将网页的源代码给获取下来 爬取下来的网页再通过文本解析提取,找到我们需要的信息,可以是图片或者文字 然后 ...

  2. python网络爬虫系列教程——python中lxml库应用全解(xpath表达式)

    全栈工程师开发手册 (作者:栾鹏) python教程全解 python网络爬虫lxml库的应用全解. 在线安装方法:cmd中输入"pip install lxml" 离线安装,下载 ...

  3. python xpath介绍和新闻内容爬虫

    二十.python xpath介绍和新闻内容爬虫 Xpath介绍 用xpath提取感兴趣的内容 一个网页文档是一个半结构化的数据,其实html文档就是一个树形结构.根节点是html 用正则表达式也可以 ...

  4. python利用selenium/requests/bs4/xpath爬虫知网8516本学术期刊具体概要

    作业描述 基于requests爬虫模块库, 把所有学术期刊的简介信息爬取下来 导航页网址: https://navi.cnki.net/knavi/Journal.html 要求: 爬取所有学术期刊的 ...

  5. python网络爬虫程序技术,Python网络爬虫程序技术

    spContent=该课程是2018年广东省精品在线开放课程.课程主要以爬取学生信息.爬取城市天气预报.爬取网站图像.爬起图书网站图书.爬取商城网站商品等5个项目为依托,讲解Web.正则表达式.Bea ...

  6. Python中爬虫框架或模块的区别

    Python中爬虫框架或模块的区别,我们在Python的学习过程中,需要不断的总结知识点,这样我们才能进步的更快一些. (1)爬虫框架或模块 Python自带爬虫模块:urllib.urllib2; ...

  7. Python Scrapy爬虫框架实战应用

    通过上一节<Python Scrapy爬虫框架详解>的学习,您已经对 Scrapy 框架有了一个初步的认识,比如它的组件构成,配置文件,以及工作流程.本节将通过一个的简单爬虫项目对 Scr ...

  8. python爬虫能干什么-爬虫可以做的事情非常多,Python的爬虫你又了解多少?

    原标题:爬虫可以做的事情非常多,Python的爬虫你又了解多少? 现在爬虫可以做的事情非常多,数据.信息.电影.资料等,你技术过关了,爱咋爬咋爬,仔细观察,加上你如果认真观察,就会发现学习爬虫的人越来 ...

  9. python多线程爬虫实例-Python实现多线程爬虫

    编辑推荐: 本文主要介绍对Python多线程爬虫实战的整体的思路,希望对大家有帮助. 本文来知乎,由火龙果软件Alice编辑,推荐. 最近在写爬虫程序爬取亚马逊上的评论信息,因此也自学了很多爬虫相关的 ...

最新文章

  1. 硬件基础:电阻作用及产品应用
  2. Microsoft training Kits
  3. 花生增产对话万书波-农业大健康·万祥军:获山东科技最高奖
  4. python 离线翻译软件_AI赋能翻译,讯飞这个设备轻松搞定国际交流
  5. SAP ABAP实用技巧介绍系列之 ABAP XSLT select keyword
  6. C#刷遍Leetcode面试题系列连载(3): No.728 - 自除数
  7. 深度学习花书-2.9 伪逆矩阵
  8. linux安装最新php版本下载地址,服务器配置-使用Linux编译安装PHP指定版本
  9. 最全面试题CSS(含答案)
  10. VNN结合金蝶Kis9.1专业版Sp1的应用及解决方案
  11. Odoo12有那些功能?『江苏odoo云整理』
  12. java 文件上传(使用多线程)
  13. mybatis日期查询
  14. AndroidStudio对apk应用进行重新签名
  15. 从SARS、埃博拉到新冠状病毒,技术在革命中进步
  16. Android 手机设备信息获取使用详解
  17. 计算机专业白色简历封面,计算机专业个人简历封面模板图
  18. ORA-01507错误解决
  19. 20本最好的免费的Python书籍
  20. 50个最实用的 Photoshop 实例教程【照片特效篇】

热门文章

  1. ct扫描方式有哪些_工业CT的原理及优势
  2. 服务器和主机有什么区别?
  3. 新标准日本语中级第七课
  4. JAVA垃圾收集器之G1
  5. nokia x android 界面,终于踏上Android路!Nokia X试玩解析
  6. 奥村模型计算机仿真,实验三-Okumura-Hata方法计算机仿真.doc
  7. PG-NoSQL特性:json和 jsonb 读写性能测试
  8. 关于MongoCollection.find(Bson var1)方法的问题
  9. VolumeRendering(一) 光线步进 RayMarching
  10. 织梦系统(DedeCMS)安全加固方案