Scrapy Shell：模拟scrapy去发送请求

Scrapy终端是一个交互终端，我们可以在未启动spider的情况下尝试及调试代码，也可以用来测试XPath或CSS表达式，查看他们的工作方式，方便我们爬取的网页中提取的数据。

如果安装了 IPython ，Scrapy终端将使用 IPython (替代标准Python终端)。 IPython 终端与其他相比更为强大，提供智能的自动补全，高亮输出，及其他特性。（推荐安装IPython）

启动Scrapy Shell

进入项目的根目录，执行下列命令来启动shell，相当于response：

scrapy shell "http://www.itcast.cn/channel/teacher.shtml"

Scrapy Shell根据下载的页面会自动创建一些方便使用的对象，例如 Response 对象，以及 Selector 对象 (对HTML及XML内容)。

当shell载入后，将得到一个包含response数据的本地 response 变量，输入 response.body将输出response的包体，输出 response.headers 可以看到response的包头。
输入 response.selector 时，将获取到一个response 初始化的类 Selector 的对象，此时可以通过使用 response.selector.xpath()或response.selector.css() 来对 response 进行查询。
Scrapy也提供了一些快捷方式, 例如 response.xpath()或response.css()同样可以生效（如之前的案例）。

Selectors选择器

Scrapy Selectors 内置 XPath 和 CSS Selector 表达式机制

Selector有四个基本的方法，最常用的还是xpath:

xpath(): 传入xpath表达式，返回该表达式所对应的所有节点的selector list列表
extract(): 序列化该节点为Unicode字符串并返回list
css(): 传入CSS表达式，返回该表达式所对应的所有节点的selector list列表，语法同 BeautifulSoup4
re(): 根据传入的正则表达式对数据进行提取，返回Unicode字符串list列表

XPath表达式的例子及对应的含义:

/html/head/title: 选择<HTML>文档中 <head> 标签内的 <title> 元素
/html/head/title/text(): 选择上面提到的 <title> 元素的文字
//td: 选择所有的 <td> 元素
//div[@class="mine"]: 选择所有具有 class="mine" 属性的 div 元素

尝试Selector

我们用腾讯社招的网站http://hr.tencent.com/position.php?&start=0#a举例：

# 启动
scrapy shell "http://hr.tencent.com/position.php?&start=0#a"# 返回 xpath选择器对象列表
response.xpath('//title')
[<Selector xpath='//title' data=u'<title>\u804c\u4f4d\u641c\u7d22 | \u793e\u4f1a\u62db\u8058 | Tencent \u817e\u8baf\u62db\u8058</title'>]# 使用 extract()方法返回 Unicode字符串列表
response.xpath('//title').extract()
[u'<title>\u804c\u4f4d\u641c\u7d22 | \u793e\u4f1a\u62db\u8058 | Tencent \u817e\u8baf\u62db\u8058</title>']# 打印列表第一个元素，终端编码格式显示
print response.xpath('//title').extract()[0]
<title>职位搜索 | 社会招聘 | Tencent 腾讯招聘</title># 返回 xpath选择器对象列表
response.xpath('//title/text()')
<Selector xpath='//title/text()' data=u'\u804c\u4f4d\u641c\u7d22 | \u793e\u4f1a\u62db\u8058 | Tencent \u817e\u8baf\u62db\u8058'># 返回列表第一个元素的Unicode字符串
response.xpath('//title/text()')[0].extract()
u'\u804c\u4f4d\u641c\u7d22 | \u793e\u4f1a\u62db\u8058 | Tencent \u817e\u8baf\u62db\u8058'# 按终端编码格式显示
print response.xpath('//title/text()')[0].extract()
职位搜索 | 社会招聘 | Tencent 腾讯招聘response.xpath('//*[@class="even"]')
职位名称:print site[0].xpath('./td[1]/a/text()').extract()[0]
TEG15-运营开发工程师（深圳）
职位名称详情页:print site[0].xpath('./td[1]/a/@href').extract()[0]
position_detail.php?id=20744&keywords=&tid=0&lid=0
职位类别:print site[0].xpath('./td[2]/text()').extract()[0]
技术类

以后做数据提取的时候，可以把现在Scrapy Shell中测试，测试通过后再应用到代码中，当然Scrapy Shell作用不仅仅如此

官方文档：http://scrapy-chs.readthedocs.io/zh_CN/latest/topics/shell.html

转载于:https://www.cnblogs.com/yaboya/p/9056046.html

4.3. Scrapy Shell相关推荐

Python:Scrapy Shell
Scrapy终端是一个交互终端,我们可以在未启动spider的情况下尝试及调试代码,也可以用来测试XPath或CSS表达式,查看他们的工作方式,方便我们爬取的网页中提取的数据. 如果安装了 IPyth ...
Scrapy shell
一.Scrapy shell简介 Scrapy终端是一个交互终端,供您在未启动spider的情况下尝试及调试您的爬取代码. 其本意是用来测试提取数据的代码,不过您可以将其作为正常的Python终端,在 ...
Scrapy shell调试网页的信息
通过scrapy shell "http://www.thinkive.cn:10000/zentaopms/www/index.php?m=user&f=login" 证 ...
爬虫学习笔记（七）——Scrapy框架（二）：Scrapy shell、选择器
一.Scrapy shell scrapy shell的作用是用于调试,在项目目录下输入scrapy shell start_urls (start_urls:目标url)得到下列信息: scrapy ...
运行scrapy shell 'http://quotes.toscrape.com'出现错误ValueError: invalid hostname: 'http
解决办法是把单引号改为双引号,即 scrapy shell "http://quotes.toscrape.com"
Scrapy框架的学习(7. 了解Scrapy中的debug信息以及Scrapy shell的使用)
认识程序中的debug信息 https://blog.csdn.net/wei18791957243/article/details/86157707 这个博客里写了,怎么关闭这些debug信息因 ...
xpath contains_Python 爬虫进阶: Scrapy Shell 和 Xpath 学习心得
说来好笑,刚学习爬虫的时候为了调试代码,是将网页下载到本地,再用beautifulsoup载入本地网页文件进行分析,以保证选择器编写正确. Scrapy内置的调试器Scrapy Shell正好作此用途 ...
scrapy shell 用法（慢慢更新...）
scrapy shell 命令 1.scrapy shell url #url指你所需要爬的网址 2.有些网址数据的爬取需要user-agent,scrapy shell中可以直接添加头文件, 第①种 ...
scrapy 中爬取时被重定向_Scrapy详解之scrapy shell
作者:Zarten知乎专栏:Python爬虫深入详解知乎ID: Zarten简介: 互联网一线工作者,尊重原创并欢迎评论留言指出不足之处,也希望多些关注和点赞是给作者最好的鼓励 ! 概述 scrapy ...
学习爬虫之Scrapy框架学习（3）---豆瓣top250电影完整版信息获取及如何存储到mysql数据库；Scrapy shell和Scrapy选择器；使用到日志的学习！
**豆瓣项目已完结!项目源码: 链接:https://pan.baidu.com/s/1DOnXwXZKiBcJbzHwDJuw5A 提取码:u8xi ** 1.昨天简单爬取了豆瓣Top250电影的一 ...

4.3. Scrapy Shell