简单scrapyd使用
一、首先要搞清楚几个概念
1、scrapy是什么?
是一个爬虫框架,你可以创建一个scrapy项目
2、scrapyd是什么?
相当于一个组价,能够将scrapy项目进行远程部署、调度使用等
因此scrapyd可以看做一个cs(client-server)程序,因此毫无疑问我们需要安装和配置scrapyd(server)和连接的scrapy-client(client)
二、安装scrapyd和scrapyd-client和配置
1、安装
pip install scrapyd
pip install scrapy-client
安装完成后,会在当前环境的python目录下的scripts文件夹中出现一个scrapyd-deploy的无后缀文件,这个无法在Windows环境运行。
新建一个文件,命名为:scrapyd-deploy.bat ,内容为环境路径:
@echo off
D:\python\python.exe D:\python\Scripts\scrapyd-deploy %*
进入到scrapy项目的路径下,输入scrapyd-deploy测试,出现下面情况表示可以正常使用。
F:\爬虫培训\dingdian>scrapyd-deploy
D:\python\Scripts\scrapyd-deploy:23: ScrapyDeprecationWarning: Module `scrapy.utils.http` is deprecated, Please import from `w3lib.http` instead.from scrapy.utils.http import basic_auth_header
Unknown target: default
2、运行scrapyd
首先切换命令行路径到scrapy项目的根目录下
要执行一下命令,需要先在命令行里执行scrapyd,将scrapyd运行起来
scrapyd
3、发布工程到scrapyd
修改爬虫的scrapy.cfg文件
# Automatically created by: scrapy startproject
#
# For more information about the [deploy] section see:
# https://scrapyd.readthedocs.io/en/latest/deploy.html[settings]
default = dingdian.settings[deploy:dd] #这里的“:” 一定要注意不能丢掉 dd随意修改
url = http://localhost:6800/
project = dingdian
[deploy:服务器名随意设置(trager)],一般情况下用在需要同时发布爬虫到多个目标服务器时,可以通过指定名字的方式发布到指定服务器。相当于服务器名。
检查scrapy配置是否正确
scrapyd-deploy -l #注意是小写的L 不是数字1F:\爬虫培训\dingdian>scrapyd-deploy -l
D:\python\Scripts\scrapyd-deploy:23: ScrapyDeprecationWarning: Module `scrapy.utils.http` is deprecated, Please import from `w3lib.http` instead.from scrapy.utils.http import basic_auth_header
dd http://localhost:6800/
4、打包
scrapy-deploy <target> -p <project> --version <version>F:\爬虫培训\dingdian>scrapyd-deploy dd -p dingdian
D:\python\Scripts\scrapyd-deploy:23: ScrapyDeprecationWarning: Module `scrapy.utils.http` is deprecated, Please import from `w3lib.http` instead.from scrapy.utils.http import basic_auth_header
Packing version 1614154683
Deploying to project "dingdian" in http://localhost:6800/addversion.json
Server response (200):
{"node_name": "WIN-PALTM3OMLT3", "status": "ok", "project": "dingdian", "version": "1614154683", "spiders": 1}
target就是前面配置文件里deploy后面的target名字
project可以随意定义干呢爬虫的工程名字无关
version自定义版本号,不写的话默认为当前时间戳
5、启动命令
curl http://localhost:6800/schedule.json -d project=dingdian -d spider=23usF:\爬虫培训\dingdian>curl http://localhost:6800/schedule.json -dproject=dingdian -d spider=23us
{"node_name": "WIN-PALTM3OMLT3", "status": "ok", "jobid": "a429706f767911ebb7c29cb6d0c11b8a"}
在scrapyd的web上jobs里面可以查看状态。
。
简单scrapyd使用相关推荐
- scrapyd部署_如何通过 Scrapyd + ScrapydWeb 简单高效地部署和监控分布式爬虫项目
来自 Scrapy 官方账号的推荐 需求分析 初级用户: 只有一台开发主机 能够通过 Scrapyd-client 打包和部署 Scrapy 爬虫项目,以及通过 Scrapyd JSON API 来控 ...
- 《Learning Scrapy》(中文版)第11章 Scrapyd分布式抓取和实时分析
序言 第1章 Scrapy介绍 第2章 理解HTML和XPath 第3章 爬虫基础 第4章 从Scrapy到移动应用 第5章 快速构建爬虫 第6章 Scrapinghub部署 第7章 配置和管理 第8 ...
- pycharm安装scrapy失败_Scrapy ——环境搭配与一个简单的例子
在我刚接触爬虫的时候就已经听过Scrapy大名了,据说是一个很厉害的爬虫框架,不过那个时候沉迷于Java爬虫.现在终于要来揭开它神秘的面纱了,来一起学习一下吧 欢迎关注公众号:老白和他的爬虫 1.环境 ...
- 【Python实战】用Scrapyd把Scrapy爬虫一步一步部署到腾讯云上,有彩蛋
接着之前的几篇文章说. 我把爬虫已经写好了,而且在本地可以运行了. 这个不是最终的目的啊. 我们是要在服务器上运行爬虫. 利用周末,同时腾讯送的7天云服务器体验也快到期了 就在这里再来一篇手把手的将爬 ...
- 利用scrapyd管理scrapy的多个爬虫
说明:环境准备基于 Ubuntu16.04 一.安装 sudo pip install scrapyd sudo pip install scrapyd-client 二.验证 命令行输入:scrap ...
- 基于Scrapy+redis+mongodb+scrapyd+scrapydweb+Pandas+BI的可视化操作分布式网络爬虫数据可视化分析
提示:所有代码已经开源到最大同性交友网站,有兴趣的朋友可以试试:Git地址 未经作者允许不得私自转发 请注明原作者:https://blog.csdn.net/qq_52420866/article/ ...
- Scrapy部署之Scrapyd和Scrapyd-API
一.环境安装 安装scprayd,网址:https://github.com/scrapy/scrapyd pip install scrapyd 安装scrapyd-client,网址:https: ...
- Scrapyd使用详解
目录 前言 使用详解 安装 启动 项目发布 相关API使用 查看服务进程状态 项目发布版本 调度爬虫 取消任务 获取上传的项目 获取项目的版本 获取项目的爬虫列表 获取任务列表(Scrapyd 0.1 ...
- Scrapyd参考文档
Scrapyd文档 Scrapyd参考文档 1.2.0 概述 项目和版本 Scrapyd如何工作 启动Scrapyd 调度一个爬虫运行 Web接口 安装 要求 安装Scrapyd(通用方式) 在Ubu ...
最新文章
- 愤怒的小鸟【$DP$优化】
- AT2005-[AGC003E]Sequential operations on Sequence【差分,思维】
- 670. Maximum Swap 允许交换一个数 求最大值
- 笔记《JavaScript 权威指南》(第6版) 分条知识点概要1—词法结构
- I/O操作不占用CPU的任何线程
- java nio 多路复用_JAVA NIO 一步步构建I/O多路复用的请求模型
- 【Python计量】自相关性(序列相关性)的检验
- HTML基础学习(菜鸟教程和W3school参考手册)
- C#的DataTable详解
- 分享美容美发预约下单小程序开发制作功能介绍
- 测试linux服务器的网速慢,测试linux服务器的上传下载速度的方法
- 项目整合微信扫码登录功能
- 对大数据量Excel文件自动排版、转换成PDF用于印刷出版
- Android应用APP脱壳笔记
- c语言实现偶数阶乘,c语言实现阶乘的方法
- Linux支持IDE硬盘,Linux中,IDE硬盘为啥表示成hda,不是iha?
- 极光推送:后台向APP:android,ios极光推送消息
- [tensorflow] 线性回归模型实现
- 2020年百度之星·程序设计大赛-初赛一
- 2020-09-30WEB前端开发准备-Atom编辑器使用说明 Atom常用插件推荐 Atom快捷键