Scrapy爬虫项目的创建及案例

文章目录

Scrapy 爬虫：
- 首先要运行scrapy肯定需要下载组件
- 创建一个Scrapy项目
- 各组件配置

Scrapy 爬虫：

新建项目 (scrapy startproject xxx)：新建一个新的爬虫项目
明确目标（编写items.py）：明确你想要抓取的目标
制作爬虫（spiders/xxspider.py）：制作爬虫开始爬取网页
存储内容（pipelines.py）：设计管道存储爬取内容

首先要运行scrapy肯定需要下载组件

在Pycharm的terminal里运行如下命令，下载Scrapy

pip install Scrapy

创建一个Scrapy项目

#scrapy startproject 项目名
scrapy startproject qqmusic

创建好了之后如下图所示（QQMusicSpider.py和QQMusicSpider2.py是自己创建的
下面来简单介绍一下各个主要文件的作用：
scrapy.cfg: 项目的配置文件。
qqmusic/: 项目的Python模块，将会从这里引用代码。
qqmusic/items.py: 项目的目标文件。
qqmusic/pipelines.py: 项目的管道文件。
qqmusic/settings.py: 项目的设置文件。
qqmusic/spiders/: 存储爬虫代码目录。

各组件配置

item.py

import scrapyclass QqmusicItem(scrapy.Item):song_name = scrapy.Field()  # 歌曲album_name = scrapy.Field()  # 唱片专辑singer_name = scrapy.Field()  # 歌手interval = scrapy.Field()  # 歌曲时长

settings.py

#原来是True,改为False
ROBOTSTXT_OBEY = False
#下载等待时间 默认为3秒，去掉注释
DOWNLOAD_DELAY = 3

QQMusicSpider2.py

from scrapy import Request
from scrapy.spiders import Spider
from ..items import QqmusicItem
import json  # 引入json库class MusicSpider(Spider):name = "music2"passdef start_requests(self):url = "https://c.y.qq.com/v8/fcg-bin/fcg_v8_toplist_cp.fcg?&topid=4"yield Request(url)def parse(self, response):json_text = response.text  # json格式化music_dict = json.loads(json_text)  # 加载json文件for one_music in music_dict["songlist"]:item = QqmusicItem()# 获取歌曲名称item["song_name"] = one_music["data"]["songname"]# 获取唱片item["album_name"] = one_music["data"]["albumname"]# 获取歌手item["singer_name"] = one_music["data"]["singer"][0]["name"]# 获取时长item["interval"] = one_music["data"]["interval"]yield item

init.py:注意是第二个qqmusic里的，不是spiders目录里的init.py

from scrapy import cmdlinecmdline.execute("scrapy crawl music2 -o music2.csv".split())# 当然你也可以在terminal里运行scrapy crawl music2 -o music2.csv

爬取完成会生成music2.csv文件

Scrapy爬虫项目的创建及案例相关推荐

Python爬虫基础：安装Scrapy爬虫框架和创建Scrapy爬虫项目
首先为了避免国外镜像不稳定,我们使用了清华大学的python库镜像:https://pypi.tuna.tsinghua.edu.cn/simple 1.安装scrapy 1.1.安装pywin32( ...
安装scrapy模块，创建一个Scrapy爬虫项目，并运行
创建一个Scrapy项目,首先需要所需要的模块一丶安装scrapy框架所有模块 1.第一个安装的依赖库是lxml ,命令是: pip install lxml 2.第二个依赖库是pyOpenSSL, ...
python scrapy爬虫遇见301_在Pycharm中运行Scrapy爬虫项目的基本操作
目标在Win7上建立一个Scrapy爬虫项目,以及对其进行基本操作.运行环境:电脑上已经安装了python(环境变量path已经设置好), 以及scrapy模块,IDE为Pycharm .操作如下: ...
scrapy没有运行结果_关于Scrapy爬虫项目运行和调试的小技巧（下篇）
前几天给大家分享了关于Scrapy爬虫项目运行和调试的小技巧上篇,没来得及上车的小伙伴可以戳超链接看一下.今天小编继续沿着上篇的思路往下延伸,给大家分享更为实用的Scrapy项目调试技巧. 三.设置网 ...
Scrapy爬虫项目的管理部署
前言为了方便对爬虫项目的流程化管理,需要一款合适的工具.主要实现的功能有: 能对爬虫项目的管理做到"统一"."稳定"."方便": 能够查看 ...
Scrapy爬虫项目——阿里文学当当网
1. Cmd命令行创建项目创建项目命令: scrapy startproject [项目名] Items定义要爬取的东西:spiders文件夹下可以放多个爬虫文件:pipelines爬虫后处理的文件 ...
006：开启Scrapy爬虫项目之旅
上一篇文章介绍了Scrapy框架的安装及其目录结构和常用工具命令,相信大家也有了初步的认识. 本章将从实战编写来补充scrapy的基础知识 Items的编写: 使用Scrapy中的Item对象可以保存 ...
用pycharm进行python爬虫的步骤_在Pycharm中运行Scrapy爬虫项目的基本操作
目标在Win7上建立一个Scrapy爬虫项目,以及对其进行基本操作.运行环境:电脑上已经安装了python(环境变量path已经设置好), 以及scrapy模块,IDE为Pycharm .操作如下: ...
python3 + Scrapy爬虫学习之创建项目
最近准备做一个关于scrapy框架的实战,爬取腾讯社招信息并存储,这篇博客记录一下创建项目的步骤 pycharm是无法创建一个scrapy项目的因此,我们需要用命令行的方法新建一个scrapy项目 ...
Python 三.创建第一个scrapy爬虫项目(分布式爬虫打造搜索引擎)
1.安装pywin32 打开cmd窗口 pip install -i https://pypi.tuna.tsinghua.edu.cn/simple pywin32 2.安装Twisted网络数据处 ...