scrapy框架持久化存储
今日概要
- 基于终端指令的持久化存储
- 基于管道的持久化存储
今日详情
1.基于终端指令的持久化存储
- 保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指定格式的文件中进行持久化操作。
执行输出指定格式进行存储:将爬取到的数据写入不同格式的文件中进行存储scrapy crawl 爬虫名称 -o xxx.jsonscrapy crawl 爬虫名称 -o xxx.xmlscrapy crawl 爬虫名称 -o xxx.csv
2.基于管道的持久化存储
scrapy框架中已经为我们专门集成好了高效、便捷的持久化操作功能,我们直接使用即可。要想使用scrapy的持久化操作功能,我们首先来认识如下两个文件:
items.py:数据结构模板文件。定义数据属性。pipelines.py:管道文件。接收数据(items),进行持久化操作。持久化流程:1.爬虫文件爬取到数据后,需要将数据封装到items对象中。2.使用yield关键字将items对象提交给pipelines管道进行持久化操作。3.在管道文件中的process_item方法中接收爬虫文件提交过来的item对象,然后编写持久化存储的代码将item对象中存储的数据进行持久化存储4.settings.py配置文件中开启管道
小试牛刀:将糗事百科首页中的段子和作者数据爬取下来,然后进行持久化存储
- 爬虫文件:qiubaiDemo.py
# -*- coding: utf-8 -*-
import scrapy
from secondblood.items import SecondbloodItemclass QiubaidemoSpider(scrapy.Spider): name = 'qiubaiDemo' allowed_domains = ['www.qiushibaike.com'] start_urls = ['http://www.qiushibaike.com/'] def parse(self, response): odiv = response.xpath('//div[@id="content-left"]/div') for div in odiv: # xpath函数返回的为列表,列表中存放的数据为Selector类型的数据。我们解析到的内容被封装在了Selector对象中,需要调用extract()函数将解析的内容从Selecor中取出。 author = div.xpath('.//div[@class="author clearfix"]//h2/text()').extract_first() author = author.strip('\n')#过滤空行 content = div.xpath('.//div[@class="content"]/span/text()').extract_first() content = content.strip('\n')#过滤空行 #将解析到的数据封装至items对象中 item = SecondbloodItem() item['author'] = author item['content'] = content yield item#提交item到管道文件(pipelines.py)
- items文件:items.py
import scrapyclass SecondbloodItem(scrapy.Item): # define the fields for your item here like: # name = scrapy.Field() author = scrapy.Field() #存储作者 content = scrapy.Field() #存储段子内容
- 管道文件:pipelines.py
# -*- coding: utf-8 -*-# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html class SecondbloodPipeline(object): #构造方法 def __init__(self): self.fp = None #定义一个文件描述符属性 #下列都是在重写父类的方法: #开始爬虫时,执行一次 def open_spider(self,spider): print('爬虫开始') self.fp = open('./data.txt', 'w') #因为该方法会被执行调用多次,所以文件的开启和关闭操作写在了另外两个只会各自执行一次的方法中。 def process_item(self, item, spider): #将爬虫程序提交的item进行持久化存储 self.fp.write(item['author'] + ':' + item['content'] + '\n') return item #结束爬虫时,执行一次 def close_spider(self,spider): self.fp.close() print('爬虫结束')
- 配置文件:settings.py
#开启管道
ITEM_PIPELINES = {'secondblood.pipelines.SecondbloodPipeline': 300, #300表示为优先级,值越小优先级越高
}
2.1 基于mysql的管道存储
小试牛刀案例中,在管道文件里将item对象中的数据值存储到了磁盘中,如果将item数据写入mysql数据库的话,只需要将上述案例中的管道文件修改成如下形式:
- pipelines.py文件
# -*- coding: utf-8 -*-# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html #导入数据库的类 import pymysql class QiubaiproPipelineByMysql(object): conn = None #mysql的连接对象声明 cursor = None#mysql游标对象声明 def open_spider(self,spider): print('开始爬虫') #链接数据库 self.conn = pymysql.Connect(host='127.0.0.1',port=3306,user='root',password='123456',db='qiubai') #编写向数据库中存储数据的相关代码 def process_item(self, item, spider): #1.链接数据库 #2.执行sql语句 sql = 'insert into qiubai values("%s","%s")'%(item['author'],item['content']) self.cursor = self.conn.cursor() #执行事务 try: self.cursor.execute(sql) self.conn.commit() except Exception as e: print(e) self.conn.rollback() return item def close_spider(self,spider): print('爬虫结束') self.cursor.close() self.conn.close()
- settings.py
ITEM_PIPELINES = {'qiubaiPro.pipelines.QiubaiproPipelineByMysql': 300,
}
2.2 基于redis的管道存储
小试牛刀案例中,在管道文件里将item对象中的数据值存储到了磁盘中,如果将item数据写入redis数据库的话,只需要将上述案例中的管道文件修改成如下形式:
# -*- coding: utf-8 -*-# Define your item pipelines here
#
# Don't forget to add your pipeline to the ITEM_PIPELINES setting
# See: https://doc.scrapy.org/en/latest/topics/item-pipeline.html import redis class QiubaiproPipelineByRedis(object): conn = None def open_spider(self,spider): print('开始爬虫') #创建链接对象 self.conn = redis.Redis(host='127.0.0.1',port=6379) def process_item(self, item, spider): dict = { 'author':item['author'], 'content':item['content'] } #写入redis中 self.conn.lpush('data', dict) return item
- pipelines.py文件
ITEM_PIPELINES = {'qiubaiPro.pipelines.QiubaiproPipelineByRedis': 300,
}
- 面试题:如果最终需要将爬取到的数据值一份存储到磁盘文件,一份存储到数据库中,则应该如何操作scrapy?
- 答:管道文件中的代码为
#该类为管道类,该类中的process_item方法是用来实现持久化存储操作的。
class DoublekillPipeline(object): def process_item(self, item, spider): #持久化操作代码 (方式1:写入磁盘文件) return item #如果想实现另一种形式的持久化操作,则可以再定制一个管道类: class DoublekillPipeline_db(object): def process_item(self, item, spider): #持久化操作代码 (方式1:写入数据库) return item
在settings.py开启管道操作代码为:
#下列结构为字典,字典中的键值表示的是即将被启用执行的管道文件和其执行的优先级。
ITEM_PIPELINES = {'doublekill.pipelines.DoublekillPipeline': 300,'doublekill.pipelines.DoublekillPipeline_db': 200, } #上述代码中,字典中的两组键值分别表示会执行管道文件中对应的两个管道类中的process_item方法,实现两种不同形式的持久化操作。
转载于:https://www.cnblogs.com/presleyren/p/10579735.html
scrapy框架持久化存储相关推荐
- Scrapy框架(持久化,去重,深度控制,cookie)
1. 持久化 目前缺点: - 无法完成爬虫刚开始:打开连接: 爬虫关闭时:关闭连接: - 分工明确 pipeline/i ...
- request设置请求头_收藏 Scrapy框架各组件详细设置
今天说一下Scrapy框架各组件的详细设置. 关于Scrapy Scrapy是纯Python语言实现的爬虫框架,简单.易用.拓展性高是其主要特点.这里不过多介绍Scrapy的基本知识点,主要针对其高拓 ...
- Scrapy框架实现持久化存储
硬盘存储 (1) 基于终端指令 * 保证parse方法返回一个可迭代类型的对象(存储解析到页面内容) * 使用终端指定完成数据存储到磁盘文件的操作 scrapy crawl 爬虫文件名称 - ...
- 爬虫之scrapy框架的数据持久化存储/保存为scv,json文件
文章目录 前情回顾 selenium+phantomjs/chrome/firefox execjs模块使用 今日笔记 scrapy框架 小试牛刀 猫眼电影案例 知识点汇总 数据持久化存储(MySQL ...
- 爬虫-scrapy数据的持久化存储
今日概要 基于终端指令的持久化存储 基于管道的持久化存储 1.基于终端指令的持久化存储 保证爬虫文件的parse方法中有可迭代类型对象(通常为列表or字典)的返回,该返回值可以通过终端指令的形式写入指 ...
- scrapy实现链家二手房的数据获取并进行持久化存储
理解Scrapy框架各个组成的作用:五大组成,下载器,调度器,引擎,爬虫,管道. 引擎:它是整个Scrapy框架的核心,用来处理整个系统的数据流,触发各种事件.用于控制调度器,下载器,爬虫,管道. 爬 ...
- 零基础学Python-爬虫-2、scrapy框架(测试案例篇·技术点在后面文章内讲解)【测试将一篇小说的所有访问路径与标题存储到一个文件下】
本套课程正式进入Python爬虫阶段,具体章节根据实际发布决定,可点击[python爬虫]分类专栏进行倒序观看: [重点提示:请勿爬取有害他人或国家利益的内容,此课程虽可爬取互联网任意内容,但无任何收 ...
- 利用scrapy爬取文件后并基于管道化的持久化存储
我们在pycharm上爬取 首先我们可以在本文件打开命令框或在Terminal下创建 scrapy startproject xiaohuaPro ------------创建文件 scrapy ...
- 实现Scrapy框架爬取酷狗音乐Top100名,并存储为TXT,JSON,CSV和Excel格式数据
前言 实现Scrapy框架爬取网页数据(酷狗音乐Top100名,包括排名信息.歌手信息.歌曲名.歌曲时长) 一.创建项目 在cmd中输入: scrapy startproject kugouScrap ...
- 爬虫基础分享Scrapy框架流程图与安装
从头开发一个爬虫程序是一项烦琐的工作,为了避免因制造轮子而消耗大量时间,在实际应用中我们可以选择使用一些优秀的爬虫框架,使用框架可以降低开发成本,提高程序质量,让我们能够专注于业务逻辑.所以,我们一起 ...
最新文章
- 工作140:封装写法
- read实现交互输入自动化(笔记)
- These dependencies were not found:问题
- Python爬取2万条微博热搜,带你揭开热搜趋势!
- Python 猴子偷桃
- 订单可视化2实战-生产交付流程(流程再造核心区)
- CTF竞赛进阶 (一) 密码学
- YOYOW-WeCenter特别版免费开源发布,一小时建立你的问答社区
- 专精特新企业认定条件
- unity 代码拷贝材质球
- html5行走的机器人,html5 css3实例教程 一款html5和css3实现的小机器人走路动画
- Validation工具类
- Colab提示使用限额,这方法你用了吗?
- 基于数据挖掘的H公园客流量分析预测
- 【3D打印机】3D打印小妙招之“缩短等待打印时间” :在打印开始时同时加热喷嘴和热床。
- Appium简介与原理
- 如何查看html源码和其它网页信息
- 计算机许可管理器服务器名称是什么意思,服务器客户端访问许可是什么意思
- strok的实现,分割字符串
- python控制电脑唤醒键_大神教你用Python实现Wake On Lan远程开机功能
热门文章
- 拓端tecdat|Python Monte Carlo K-Means聚类实战研究
- android 自定义加载圈,Android自定义加载控件实现数据加载动画
- php 连等赋值,变量赋值时的,多个变量连等的问题
- java拦截器要怎么写_SpringMVC中的拦截器详解及代码示例
- Could not find a version that satisfies the requirement torch==1.4.0 (from torchvision)
- AlphaGo围棋 论文笔记
- Kaggle入门——使用scikit-learn解决DigitRecognition问题
- 异常值检测算法 IsolationForest、EllipticEnvelope、OneClassSVM实践
- 浏览器插件 如何方便查看md文件内容 markdown
- IDEA java 运行程序 指定运行参数