目录

  • 官方学习网址
  • 提取文本数据
  • 快速选择嵌套数据 .xpath().css()
  • 基本URL和一些图像链接

官方学习网址

https://parsel.readthedocs.io/en/latest/usage.html

提取文本数据

a = response.xpath('//title/text()')

返回的是一个selector对象

你也可以用CSS来问同样的事情

a = response.css('title::text')

若要实际提取文本数据 .get().getall()

a = response.xpath('//title/text()').get()

返回的是字符串
.get()始终返回单个结果;如果有多个匹配项, 返回第一个匹配项的内容;如果没有匹配项,则无 被返回。 返回包含所有结果的列表。.getall()

快速选择嵌套数据 .xpath().css()

实例

a3 = response.css('.son1').xpath('./a/text()').getall()

如果只想提取第一个匹配的元素,可以调用 选择器 .get().extract_first()

a3 = response.css('.son1').xpath('./a/text()').get()
a3 = response.css('.son1').xpath('./a/text()').extract_first()

返回未找到元素,则返回:None 使用 .get() is None
作为快捷方式,也可直接在选择器列表中使用; 它返回第一个匹配元素的属性:.attrib

基本URL和一些图像链接

a4 = response.xpath('//div[@class="son1"]/a/@href').getall()
a4 = response.xpath('//div[@class="son1"]').css('a::attr(href)').getall()

对于css 要选择文本节点,请使用::text
要选择属性值,请使用 其中名称为 要为其输入值的属性的名称::attr(name)
这些伪元素是特定于 Scrapy/Parsell 的。 它们很可能不适用于其他库,如 lxml 或 PyQuery。
*::text 选择当前选择器上下文的所有后代文本节点:
a::attr(href)选择后代链接的 HREF 属性值
将选择器与正则表达式结合使用
节点:
a::attr(href)选择后代链接的 HREF 属性值
将选择器与正则表达式结合使用
当 XPath 或不够时,该函数可能非常有用。test() starts-with() contains()

parsel学习记录相关推荐

  1. Pytorch学习记录-torchtext和Pytorch的实例( 使用神经网络训练Seq2Seq代码)

    Pytorch学习记录-torchtext和Pytorch的实例1 0. PyTorch Seq2Seq项目介绍 1. 使用神经网络训练Seq2Seq 1.1 简介,对论文中公式的解读 1.2 数据预 ...

  2. HTML5与CSS3权威指南之CSS3学习记录

    title: HTML5与CSS3权威指南之CSS3学习记录 toc: true date: 2018-10-14 00:06:09 学习资料--<HTML5与CSS3权威指南>(第3版) ...

  3. springboot @cacheable不起作用_Springboot学习记录13 使用缓存:整合redis

    本学习记录的代码,部分参考自gitee码云的如下工程.这个工程有详尽的Spingboot1.x教程.鸣谢! https://gitee.com/didispace/SpringBoot-Learnin ...

  4. 【Cmake】Cmake学习记录

    Cmake学习记录 1.1 常例 add_library(gen_reference_infogen_reference_info/gen_reference_info.hgen_reference_ ...

  5. ASP.NETCore学习记录(一)

    ASP.NETCore学习记录(一) asp.net core介绍  Startup.cs  ConfigureServices  Configure  0. ASP.NETCore 介绍 ASP.N ...

  6. Android开发技术周报176学习记录

    Android开发技术周报176学习记录 教程 当 OkHttp 遇上 Http 2.0 http://fucknmb.com/2018/04/16/%E5%BD%93OkHttp%E9%81%87% ...

  7. add函数 pytorch_Pytorch学习记录-Pytorch可视化使用tensorboardX

    Pytorch学习记录-Pytorch可视化使用tensorboardX 在很早很早以前(至少一个半月),我做过几节关于tensorboard的学习记录. https://www.jianshu.co ...

  8. java之字符串学习记录

    java之字符串学习记录 public class StringDemo { public static void main(String[] args) { //静态初始化字符串 String s1 ...

  9. Redis的学习记录

    Redis的学习记录 1.先导了解 1.1 NOSQL概述 1.1.1 为什么要用NoSql? 1.1.2 NoSql了解 1.1.3 NoSql特点 1.1.4 NoSQL的四大分类 2. Redi ...

最新文章

  1. 为了成长,我所做的一些努力!
  2. 微信 小程序组件 搜索分类 带缓存(终极 上线版)
  3. 今天做内存操作系统(xp装在内存中)
  4. 1.9 程序示例--局部加权线性回归-机器学习笔记-斯坦福吴恩达教授
  5. java ssm 多租户_(十一)java B2B2C 源码 多级分销springmvc mybatis多租户电子商城系统- SSO单点登录之OAuth2.0登录流程(2)...
  6. Opencv实现利用滑动条来调整阈值
  7. css3自适应 fill-available、fit-content、max-content、min-content
  8. 测试linux和window下 jdk最大能使用多大内存
  9. 高质量 Android 开发框架 LoonAndroid 详解
  10. 安装quickLook插件以及解决如何不能读取offic问题
  11. 什么样的公司值得加入?
  12. 安卓layout布局三等分
  13. Could not clean server of obsolete
  14. 引入ant组件分页时显示英文问题
  15. 更好的 java 重试框架 sisyphus 背后的故事
  16. AUTOCAD——命令重复、撤销与重做
  17. iHRM 人力资源管理系统_第7章 POI报表的入门
  18. c语言自动取数函数,C语言中取随机数的函数
  19. SDUT-2933-人活着系列之Streetlights (Kruskal)
  20. Python绘制彩色蟒蛇

热门文章

  1. 启动、关闭ubuntu Linux防火墙
  2. Power BI 替代VLookUP 拼接海量数据
  3. 我的世界java出生蘑菇岛,我的世界:出生在蘑菇岛是种怎样的体验?星耀带你了解一番...
  4. QMS-云质-质量软件-客诉,为什么应该用两段式来处理
  5. mongodb安装失败解决办法
  6. 关于浏览器启动时弹出某网导航的处理办法
  7. android 友盟原生分享之QQ分享失败2004
  8. Windows 防火墙设置
  9. 华为运动手环,属于你的全天候健康助手
  10. java实现发送邮箱验证码——三步搞定java邮箱发送验证码