四、ITcast小爬虫-- -o指定输出格式的文件

此次演示的ITcast小爬虫没有写管道文件，而是将所有的item存到一个列表中，运行爬虫时通过-o指定输出文件格式来保存信息。

原理：通过下面列出的itcast.py 文件的 return items 可知，爬虫文件返回给引擎的信息并不是字段item，而是自定义的列表items，此时引擎会判断出并非item，则会按照我们的命令来存储信息。

运行命令：scrapy crawl itcast -o teachers.json

这里teachers.json 将保存爬取下来的信息，也可以输出成其他格式的文件。

scrapy保存信息最简单的方法主要有四种，-o指定输出格式的文件，命令如下：

#json格式，默认为Unicode编码

scrapy crawl itcast -o teachers.json

#json lines格式，默认为Unicode编码

scrapy crawl itcast -o teachers.json1

#csv逗号表达式，可用Excel打开

scrapy crawl itcast -o teachers.csv

#xml格式

scrapy crawl itcast -o teachers.xml

代码：

这里只列出spiders/itcast.py 文件和items.py 文件

items.py文件：定义需要存储信息的字段

spiders/itcast.py 文件：解析响应文件并把信息存到item里，然后把所有item存到列表items里，通过-o指定输出文件格式将信息输出到指定文件

items.py


# -*- coding: utf-8 -*-# Define here the models for your scraped items
#
# See documentation in:
# https://doc.scrapy.org/en/latest/topics/items.htmlimport scrapyclass ItcastItem(scrapy.Item):# define the fields for your item here like:#老师姓名name = scrapy.Field()#老师职称title = scrapy.Field()#老师信息info = scrapy.Field()

spiders/itcast.py

#RVB NMYGFVC 98Aq23 -*- coding: utf-8 -*-
import scrapy
from ITcast.items import ItcastItem #导入itemclass ItcastSpider(scrapy.Spider):#爬虫名，启动爬虫时需要的参数*必需name = 'itcast'#爬取域的范围，允许爬虫在这个域下进行爬取（可选）allowed_domains = ['http://www.itcast.cn']#起始url列表，爬虫执行后第一批请求将从这个列表获取start_urls = ['http://www.itcast.cn/channel/teacher.shtml']def parse(self, response):#解析响应文件node_list = response.xpath("//div[@class='li_txt']")items=[]#列表存储所有的itemfor node in node_list:#创建item字段对象，用来存储字段信息item = ItcastItem()#.extract()提取出xpath对象的内容部分,提取之后是个列表，需要取索引name = node.xpath("./h3/text()").extract()title = node.xpath("./h4/text()").extract()info = node.xpath("./p/text()").extract()#把信息存储到item字段中item['name'] = name[0]item['title'] = title[0]item['info'] = info[0]items.append(item)return items #信息返回给引擎，判断出并非item会按照我们的命令来存储信息

四、ITcast小爬虫-- -o指定输出格式的文件相关推荐

五、ITcast小爬虫与管道文件
1.介绍Item Pipeline 当Item在Spider中被收集之后,它将会被传递到Item Pipeline, 这些Item Pipeline组件按照定义的顺序处理Item,每一个Item Pi ...
第一个python爬虫_Python爬虫01——第一个小爬虫
Python小爬虫--贴吧图片的爬取在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. 目标: 首先肯定要实现图片抓取这个基本功能然后实现对用户所给的链接进行抓取最后要有一定的 ...
Python爬虫01——第一个小爬虫
原文:https://www.cnblogs.com/Axi8/p/5757270.html Python小爬虫--贴吧图片的爬取在对Python有了一定的基础学习后,进行贴吧图片抓取小程序的编写. ...
数据挖掘 (三)——基于python的当当网小爬虫
导语本文将实现利用Python爬取并简单地可视化分析当当网的图书数据. 详细的exe.源代码.程序解析等文件请关注公众号行歌知否, 回复关键词当当网小爬虫获取. 更多精彩内容请关注公众号转 ...
python小爬虫之天气查询
python小爬虫之天气查询刚开始研究爬虫,这个小程序通过抓取网页源代码,使用json解析实现了天气的查询. 1.需求分析该博客实现了简单的天气查询功能,输入城市名称后可以查询出该城市的天气情况. ...
c# 指定打开某个路径下的CMD_Windows小技巧批处理文件实现目录下文件批量打包压缩...
最近整理资料,发现很多 pdf 文档,占用了不少的存储空间,考虑使用 7-zip 进行压缩存储,由于文件比较多,且分散在不同目录下,一个个文件压缩比较繁琐.为了提高效率且,方便后面取用,所有打算捣鼓个 ...
Java豆瓣电影爬虫——小爬虫成长记（附源码）
以前也用过爬虫,比如使用nutch爬取指定种子,基于爬到的数据做搜索,还大致看过一些源码.当然,nutch对于爬虫考虑的是十分全面和细致的.每当看到屏幕上唰唰过去的爬取到的网页信息以及处理信息的时候, ...
1号小爬虫：普通的爬虫，下载百度壁纸
更多爬虫请见:我的爬虫史代码说明: 曾经模仿实现过下载淘宝MM图片的爬虫,现在重新拾起爬虫,也是先从下载图片开始.本爬虫用来下载百度壁纸(传送门). 1号小爬虫主要包括两个步骤:第一步用urllib ...

四、ITcast小爬虫-- -o指定输出格式的文件

四、ITcast小爬虫-- -o指定输出格式的文件相关推荐

最新文章

热门文章