一、首先要搞清楚几个概念

1、scrapy是什么?

是一个爬虫框架,你可以创建一个scrapy项目

2、scrapyd是什么?

相当于一个组价,能够将scrapy项目进行远程部署、调度使用等

因此scrapyd可以看做一个cs(client-server)程序,因此毫无疑问我们需要安装和配置scrapyd(server)和连接的scrapy-client(client)

二、安装scrapyd和scrapyd-client和配置

1、安装

pip install scrapyd
pip install scrapy-client

安装完成后,会在当前环境的python目录下的scripts文件夹中出现一个scrapyd-deploy的无后缀文件,这个无法在Windows环境运行。

新建一个文件,命名为:scrapyd-deploy.bat ,内容为环境路径:

@echo off
D:\python\python.exe   D:\python\Scripts\scrapyd-deploy %*

进入到scrapy项目的路径下,输入scrapyd-deploy测试,出现下面情况表示可以正常使用。

F:\爬虫培训\dingdian>scrapyd-deploy
D:\python\Scripts\scrapyd-deploy:23: ScrapyDeprecationWarning: Module `scrapy.utils.http` is deprecated, Please import from `w3lib.http` instead.from scrapy.utils.http import basic_auth_header
Unknown target: default

2、运行scrapyd

首先切换命令行路径到scrapy项目的根目录下

要执行一下命令,需要先在命令行里执行scrapyd,将scrapyd运行起来

scrapyd

3、发布工程到scrapyd

修改爬虫的scrapy.cfg文件

# Automatically created by: scrapy startproject
#
# For more information about the [deploy] section see:
# https://scrapyd.readthedocs.io/en/latest/deploy.html[settings]
default = dingdian.settings[deploy:dd]  #这里的“:” 一定要注意不能丢掉  dd随意修改
url = http://localhost:6800/
project = dingdian

[deploy:服务器名随意设置(trager)],一般情况下用在需要同时发布爬虫到多个目标服务器时,可以通过指定名字的方式发布到指定服务器。相当于服务器名。

检查scrapy配置是否正确

scrapyd-deploy -l #注意是小写的L 不是数字1F:\爬虫培训\dingdian>scrapyd-deploy -l
D:\python\Scripts\scrapyd-deploy:23: ScrapyDeprecationWarning: Module `scrapy.utils.http` is deprecated, Please import from `w3lib.http` instead.from scrapy.utils.http import basic_auth_header
dd                   http://localhost:6800/

4、打包

scrapy-deploy <target> -p <project> --version <version>F:\爬虫培训\dingdian>scrapyd-deploy dd -p dingdian
D:\python\Scripts\scrapyd-deploy:23: ScrapyDeprecationWarning: Module `scrapy.utils.http` is deprecated, Please import from `w3lib.http` instead.from scrapy.utils.http import basic_auth_header
Packing version 1614154683
Deploying to project "dingdian" in http://localhost:6800/addversion.json
Server response (200):
{"node_name": "WIN-PALTM3OMLT3", "status": "ok", "project": "dingdian", "version": "1614154683", "spiders": 1}

target就是前面配置文件里deploy后面的target名字

project可以随意定义干呢爬虫的工程名字无关

version自定义版本号,不写的话默认为当前时间戳

5、启动命令

curl http://localhost:6800/schedule.json -d project=dingdian -d spider=23usF:\爬虫培训\dingdian>curl http://localhost:6800/schedule.json -dproject=dingdian -d spider=23us
{"node_name": "WIN-PALTM3OMLT3", "status": "ok", "jobid": "a429706f767911ebb7c29cb6d0c11b8a"}

在scrapyd的web上jobs里面可以查看状态。


简单scrapyd使用相关推荐

  1. scrapyd部署_如何通过 Scrapyd + ScrapydWeb 简单高效地部署和监控分布式爬虫项目

    来自 Scrapy 官方账号的推荐 需求分析 初级用户: 只有一台开发主机 能够通过 Scrapyd-client 打包和部署 Scrapy 爬虫项目,以及通过 Scrapyd JSON API 来控 ...

  2. 《Learning Scrapy》(中文版)第11章 Scrapyd分布式抓取和实时分析

    序言 第1章 Scrapy介绍 第2章 理解HTML和XPath 第3章 爬虫基础 第4章 从Scrapy到移动应用 第5章 快速构建爬虫 第6章 Scrapinghub部署 第7章 配置和管理 第8 ...

  3. pycharm安装scrapy失败_Scrapy ——环境搭配与一个简单的例子

    在我刚接触爬虫的时候就已经听过Scrapy大名了,据说是一个很厉害的爬虫框架,不过那个时候沉迷于Java爬虫.现在终于要来揭开它神秘的面纱了,来一起学习一下吧 欢迎关注公众号:老白和他的爬虫 1.环境 ...

  4. 【Python实战】用Scrapyd把Scrapy爬虫一步一步部署到腾讯云上,有彩蛋

    接着之前的几篇文章说. 我把爬虫已经写好了,而且在本地可以运行了. 这个不是最终的目的啊. 我们是要在服务器上运行爬虫. 利用周末,同时腾讯送的7天云服务器体验也快到期了 就在这里再来一篇手把手的将爬 ...

  5. 利用scrapyd管理scrapy的多个爬虫

    说明:环境准备基于 Ubuntu16.04 一.安装 sudo pip install scrapyd sudo pip install scrapyd-client 二.验证 命令行输入:scrap ...

  6. 基于Scrapy+redis+mongodb+scrapyd+scrapydweb+Pandas+BI的可视化操作分布式网络爬虫数据可视化分析

    提示:所有代码已经开源到最大同性交友网站,有兴趣的朋友可以试试:Git地址 未经作者允许不得私自转发 请注明原作者:https://blog.csdn.net/qq_52420866/article/ ...

  7. Scrapy部署之Scrapyd和Scrapyd-API

    一.环境安装 安装scprayd,网址:https://github.com/scrapy/scrapyd pip install scrapyd 安装scrapyd-client,网址:https: ...

  8. Scrapyd使用详解

    目录 前言 使用详解 安装 启动 项目发布 相关API使用 查看服务进程状态 项目发布版本 调度爬虫 取消任务 获取上传的项目 获取项目的版本 获取项目的爬虫列表 获取任务列表(Scrapyd 0.1 ...

  9. Scrapyd参考文档

    Scrapyd文档 Scrapyd参考文档 1.2.0 概述 项目和版本 Scrapyd如何工作 启动Scrapyd 调度一个爬虫运行 Web接口 安装 要求 安装Scrapyd(通用方式) 在Ubu ...

最新文章

  1. 愤怒的小鸟【$DP$优化】
  2. AT2005-[AGC003E]Sequential operations on Sequence【差分,思维】
  3. 670. Maximum Swap 允许交换一个数 求最大值
  4. 笔记《JavaScript 权威指南》(第6版) 分条知识点概要1—词法结构
  5. I/O操作不占用CPU的任何线程
  6. java nio 多路复用_JAVA NIO 一步步构建I/O多路复用的请求模型
  7. 【Python计量】自相关性(序列相关性)的检验
  8. HTML基础学习(菜鸟教程和W3school参考手册)
  9. C#的DataTable详解
  10. 分享美容美发预约下单小程序开发制作功能介绍
  11. 测试linux服务器的网速慢,测试linux服务器的上传下载速度的方法
  12. 项目整合微信扫码登录功能
  13. 对大数据量Excel文件自动排版、转换成PDF用于印刷出版
  14. Android应用APP脱壳笔记
  15. c语言实现偶数阶乘,c语言实现阶乘的方法
  16. Linux支持IDE硬盘,Linux中,IDE硬盘为啥表示成hda,不是iha?
  17. 极光推送:后台向APP:android,ios极光推送消息
  18. [tensorflow] 线性回归模型实现
  19. 2020年百度之星·程序设计大赛-初赛一
  20. 2020-09-30WEB前端开发准备-Atom编辑器使用说明 Atom常用插件推荐 Atom快捷键

热门文章

  1. 脚手架中使eslint失效
  2. RSS阅读器BT sync
  3. 夸奖对方代码写的好_怎样赞美别人能达到最好的效果
  4. 使用微信小程序开发弹出框应用实例详解
  5. 命令行里的方括号、尖括号是什么
  6. 推荐 :机器学习的通俗讲解
  7. 要警惕眼睛有红血丝和黑点!
  8. 计算机联网记录能删除吗,电脑怎么删除路由器wifi记录
  9. SysTick_系统定时器实现流水灯
  10. 怎么搭建个人小型渲染农场?搭建渲染农场需要准备什么?