parsel学习记录
目录
- 官方学习网址
- 提取文本数据
- 快速选择嵌套数据 .xpath().css()
- 基本URL和一些图像链接
官方学习网址
https://parsel.readthedocs.io/en/latest/usage.html
提取文本数据
a = response.xpath('//title/text()')
返回的是一个selector对象
你也可以用CSS来问同样的事情
a = response.css('title::text')
若要实际提取文本数据 .get().getall()
a = response.xpath('//title/text()').get()
返回的是字符串
.get()始终返回单个结果;如果有多个匹配项, 返回第一个匹配项的内容;如果没有匹配项,则无 被返回。 返回包含所有结果的列表。.getall()
快速选择嵌套数据 .xpath().css()
实例
a3 = response.css('.son1').xpath('./a/text()').getall()
如果只想提取第一个匹配的元素,可以调用 选择器 .get().extract_first()
a3 = response.css('.son1').xpath('./a/text()').get()
a3 = response.css('.son1').xpath('./a/text()').extract_first()
返回未找到元素,则返回:None 使用 .get() is None
作为快捷方式,也可直接在选择器列表中使用; 它返回第一个匹配元素的属性:.attrib
基本URL和一些图像链接
a4 = response.xpath('//div[@class="son1"]/a/@href').getall()
a4 = response.xpath('//div[@class="son1"]').css('a::attr(href)').getall()
对于css 要选择文本节点,请使用::text
要选择属性值,请使用 其中名称为 要为其输入值的属性的名称::attr(name)
这些伪元素是特定于 Scrapy/Parsell 的。 它们很可能不适用于其他库,如 lxml 或 PyQuery。
*::text 选择当前选择器上下文的所有后代文本节点:
a::attr(href)选择后代链接的 HREF 属性值
将选择器与正则表达式结合使用
节点:
a::attr(href)选择后代链接的 HREF 属性值
将选择器与正则表达式结合使用
当 XPath 或不够时,该函数可能非常有用。test() starts-with() contains()
parsel学习记录相关推荐
- Pytorch学习记录-torchtext和Pytorch的实例( 使用神经网络训练Seq2Seq代码)
Pytorch学习记录-torchtext和Pytorch的实例1 0. PyTorch Seq2Seq项目介绍 1. 使用神经网络训练Seq2Seq 1.1 简介,对论文中公式的解读 1.2 数据预 ...
- HTML5与CSS3权威指南之CSS3学习记录
title: HTML5与CSS3权威指南之CSS3学习记录 toc: true date: 2018-10-14 00:06:09 学习资料--<HTML5与CSS3权威指南>(第3版) ...
- springboot @cacheable不起作用_Springboot学习记录13 使用缓存:整合redis
本学习记录的代码,部分参考自gitee码云的如下工程.这个工程有详尽的Spingboot1.x教程.鸣谢! https://gitee.com/didispace/SpringBoot-Learnin ...
- 【Cmake】Cmake学习记录
Cmake学习记录 1.1 常例 add_library(gen_reference_infogen_reference_info/gen_reference_info.hgen_reference_ ...
- ASP.NETCore学习记录(一)
ASP.NETCore学习记录(一) asp.net core介绍 Startup.cs ConfigureServices Configure 0. ASP.NETCore 介绍 ASP.N ...
- Android开发技术周报176学习记录
Android开发技术周报176学习记录 教程 当 OkHttp 遇上 Http 2.0 http://fucknmb.com/2018/04/16/%E5%BD%93OkHttp%E9%81%87% ...
- add函数 pytorch_Pytorch学习记录-Pytorch可视化使用tensorboardX
Pytorch学习记录-Pytorch可视化使用tensorboardX 在很早很早以前(至少一个半月),我做过几节关于tensorboard的学习记录. https://www.jianshu.co ...
- java之字符串学习记录
java之字符串学习记录 public class StringDemo { public static void main(String[] args) { //静态初始化字符串 String s1 ...
- Redis的学习记录
Redis的学习记录 1.先导了解 1.1 NOSQL概述 1.1.1 为什么要用NoSql? 1.1.2 NoSql了解 1.1.3 NoSql特点 1.1.4 NoSQL的四大分类 2. Redi ...
最新文章
- 为了成长,我所做的一些努力!
- 微信 小程序组件 搜索分类 带缓存(终极 上线版)
- 今天做内存操作系统(xp装在内存中)
- 1.9 程序示例--局部加权线性回归-机器学习笔记-斯坦福吴恩达教授
- java ssm 多租户_(十一)java B2B2C 源码 多级分销springmvc mybatis多租户电子商城系统- SSO单点登录之OAuth2.0登录流程(2)...
- Opencv实现利用滑动条来调整阈值
- css3自适应 fill-available、fit-content、max-content、min-content
- 测试linux和window下 jdk最大能使用多大内存
- 高质量 Android 开发框架 LoonAndroid 详解
- 安装quickLook插件以及解决如何不能读取offic问题
- 什么样的公司值得加入?
- 安卓layout布局三等分
- Could not clean server of obsolete
- 引入ant组件分页时显示英文问题
- 更好的 java 重试框架 sisyphus 背后的故事
- AUTOCAD——命令重复、撤销与重做
- iHRM 人力资源管理系统_第7章 POI报表的入门
- c语言自动取数函数,C语言中取随机数的函数
- SDUT-2933-人活着系列之Streetlights (Kruskal)
- Python绘制彩色蟒蛇