python xpath 爬虫小试牛刀
案例: 使用request + lxml 爬取糗事百科每页的标题数据
代码如下图:
import requests
from lxml import etreefor i in range(0, 3):# 设置user-agentua = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36" }# 生成URLurl = "https://www.qiushibaike.com/8hr/page/" + str(i+1) + "/"print(url)# 获取网页数据response = requests.get(url=url, headers=ua).text# 将html转换成tree对象tree = etree.HTML(response)# 通过xpath表达式,获取标题文本信息title_lst = tree.xpath('//a[@class="recmd-content"]/text()')print('--------------------', len(title_lst))# 打印具体的标题数据for title in title_lst:print(title)
输出结果:打印出页面上的标题数、具体的标题文本信息
python xpath 爬虫小试牛刀相关推荐
- python xpath爬虫_Python爬虫(2):XPath语法
OK,上次我们说到了网页爬虫的一个思路:首先说一下网页爬虫的整个思路方法:先爬取整个网页,也就是将网页的源代码给获取下来 爬取下来的网页再通过文本解析提取,找到我们需要的信息,可以是图片或者文字 然后 ...
- python网络爬虫系列教程——python中lxml库应用全解(xpath表达式)
全栈工程师开发手册 (作者:栾鹏) python教程全解 python网络爬虫lxml库的应用全解. 在线安装方法:cmd中输入"pip install lxml" 离线安装,下载 ...
- python xpath介绍和新闻内容爬虫
二十.python xpath介绍和新闻内容爬虫 Xpath介绍 用xpath提取感兴趣的内容 一个网页文档是一个半结构化的数据,其实html文档就是一个树形结构.根节点是html 用正则表达式也可以 ...
- python利用selenium/requests/bs4/xpath爬虫知网8516本学术期刊具体概要
作业描述 基于requests爬虫模块库, 把所有学术期刊的简介信息爬取下来 导航页网址: https://navi.cnki.net/knavi/Journal.html 要求: 爬取所有学术期刊的 ...
- python网络爬虫程序技术,Python网络爬虫程序技术
spContent=该课程是2018年广东省精品在线开放课程.课程主要以爬取学生信息.爬取城市天气预报.爬取网站图像.爬起图书网站图书.爬取商城网站商品等5个项目为依托,讲解Web.正则表达式.Bea ...
- Python中爬虫框架或模块的区别
Python中爬虫框架或模块的区别,我们在Python的学习过程中,需要不断的总结知识点,这样我们才能进步的更快一些. (1)爬虫框架或模块 Python自带爬虫模块:urllib.urllib2; ...
- Python Scrapy爬虫框架实战应用
通过上一节<Python Scrapy爬虫框架详解>的学习,您已经对 Scrapy 框架有了一个初步的认识,比如它的组件构成,配置文件,以及工作流程.本节将通过一个的简单爬虫项目对 Scr ...
- python爬虫能干什么-爬虫可以做的事情非常多,Python的爬虫你又了解多少?
原标题:爬虫可以做的事情非常多,Python的爬虫你又了解多少? 现在爬虫可以做的事情非常多,数据.信息.电影.资料等,你技术过关了,爱咋爬咋爬,仔细观察,加上你如果认真观察,就会发现学习爬虫的人越来 ...
- python多线程爬虫实例-Python实现多线程爬虫
编辑推荐: 本文主要介绍对Python多线程爬虫实战的整体的思路,希望对大家有帮助. 本文来知乎,由火龙果软件Alice编辑,推荐. 最近在写爬虫程序爬取亚马逊上的评论信息,因此也自学了很多爬虫相关的 ...
最新文章
- 硬件基础:电阻作用及产品应用
- Microsoft training Kits
- 花生增产对话万书波-农业大健康·万祥军:获山东科技最高奖
- python 离线翻译软件_AI赋能翻译,讯飞这个设备轻松搞定国际交流
- SAP ABAP实用技巧介绍系列之 ABAP XSLT select keyword
- C#刷遍Leetcode面试题系列连载(3): No.728 - 自除数
- 深度学习花书-2.9 伪逆矩阵
- linux安装最新php版本下载地址,服务器配置-使用Linux编译安装PHP指定版本
- 最全面试题CSS(含答案)
- VNN结合金蝶Kis9.1专业版Sp1的应用及解决方案
- Odoo12有那些功能?『江苏odoo云整理』
- java 文件上传(使用多线程)
- mybatis日期查询
- AndroidStudio对apk应用进行重新签名
- 从SARS、埃博拉到新冠状病毒,技术在革命中进步
- Android 手机设备信息获取使用详解
- 计算机专业白色简历封面,计算机专业个人简历封面模板图
- ORA-01507错误解决
- 20本最好的免费的Python书籍
- 50个最实用的 Photoshop 实例教程【照片特效篇】
热门文章
- ct扫描方式有哪些_工业CT的原理及优势
- 服务器和主机有什么区别?
- 新标准日本语中级第七课
- JAVA垃圾收集器之G1
- nokia x android 界面,终于踏上Android路!Nokia X试玩解析
- 奥村模型计算机仿真,实验三-Okumura-Hata方法计算机仿真.doc
- PG-NoSQL特性:json和 jsonb 读写性能测试
- 关于MongoCollection.find(Bson var1)方法的问题
- VolumeRendering(一) 光线步进 RayMarching
- 织梦系统(DedeCMS)安全加固方案