scrapy将爬取的数据存入mysql_scrapy爬取数据存入MySQL

创建工程

scrapy startproject tutorial

创建蜘蛛

scrapy genspider crawl_mysql inputMysql http://lab.scrapyd.cn/

编写Item

class InputMysqlItem(scrapy.Item):

tags = scrapy.Field()

content = scrapy.Field()

编写创建数据库

创建数据库：

CREATE DATABASE db DEFAULT CHARACTER SET utf8

创建需要的表:CREATE TABLE crawl_my( id INTEGER NOT NULL tags VARCHAR(64) NULL, content VARCHAR(255) NULL) ENGINE = InnoDB;

编写pipline

import pymysql.cursors

class MySQLPipeline(object):

def __init__(self):

#链接数据库

self.connect = pymysql.connect(

host = '127.0.0.1',#数据库地址

port = 3306,#数据库端口

db = 'db',#数据库名称

user = 'root',#数据库用户名

passwd = 'root',#数据库密码

charset = 'utf8',#数据库编码

use_unicode = True

)

#拿到操作数据库的游标

self.cursor = self.connect.cursor()

def process_item(self,item,spider):

self.cursor.execute(

'''

insert into crawl_my(tags,content)

VALUE (%s,%s)

''',(item['tags'],item['content'])

)

#提交sql

self.connect.commit()

return item

在setting设置pipline

ITEM_PIPELINES = {

# 'tutorial.pipelines.FlowPipline': 300,

# 'tutorial.pipelines.MyImagesPipeline': 1,

'tutorial.pipelines.MySQLPipeline': 1,

# 'scrapy.contrib.pipeline.images.ImagesPipeline':1,

}

爬取spider

import scrapy

from tutorial.items import InputMysqlItem

class CrawlMysqlSpider(scrapy.Spider):

name = 'crawl_mysql'

allowed_domains = ['lab.scrapyd.cn']

start_urls = ['http://lab.scrapyd.cn/']

def parse(self, response):

item = InputMysqlItem()

for sel in response.css('div.quote'):

item['content'] = sel.css('.text::text').extract_first()

tags = sel.css('.tags .tag::text').extract()

item['tags'] = ','.join(tags)

yield item

#获取下一页链接

next_page = response.css('li.next a::attr(href)').extract_first()

if next_page is not None:

next_page = response.urljoin(next_page)

yield scrapy.Request(next_page,callback=self.parse)

scrapy将爬取的数据存入mysql_scrapy爬取数据存入MySQL相关推荐

scrapy过滤重复数据和增量爬取
原文链接前言这篇笔记基于上上篇笔记的---<scrapy电影天堂实战(二)创建爬虫项目>,而这篇又涉及redis,所以又先熟悉了下redis,记录了下<redis基础笔记> ...
[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息（三） —— 数据的持久化——使用MongoDB存储爬取的数据
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) -- 编写一个基本的 Spider 爬取微博用户信息在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微 ...
scrapy中集成selenium+浏览器池实现selenium的并发爬取LCSC网站中非结构化表格数据+异步存储进mysql+完整代码
爬取https://lcsc.com/products/Connectors_365.html这个网址下所有的表格数据. 蓝色的都是要爬取的子页面,要爬取子页面里面的表格数据 ,表格数据如下: 右上角 ...
python中scrapy可以爬取多少数据_python scrapy框架爬取某站博人传评论数据
1. B站博人传评论数据爬取简介今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...
python爬取b站评论_Python爬虫框架：scrapy抓取B站博人传评论数据
1. B站博人传评论数据爬取简介今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...
爬取猫眼票房保存在MySQL_Scrapy爬取猫眼电影并存入MongoDB数据库
之前入门了Scrapy,用Scrapy框架爬取豆瓣TOP250,最近打算学习下scrapy-redis分布式爬虫,学习之前再重新温故下Scrapy,这个总结我缩写了很多内容,很多介绍可以看下我之前写的 ...
知乎爬虫（scrapy默认配置下单机1小时可爬取60多万条数据）
知乎爬虫(scrapy默认配置下单机1小时可爬取60多万条数据) 版本:1.0 作者: AlexTan CSDN: http://blog.csdn.net/alextan_ e-mail: alex ...
运用Scrapy框架爬取淘车网十七万二手车数据
本篇内容将使用scrapy框架爬取淘车网所有二手车信息. 下面开始讲解下如何爬取我们想要的数据: 明确爬取目标: 首先,进入官网:https://www.taoche.com/ 进入官网发现,我们要获 ...
python爬虫爬取虎扑湖人论坛专区帖子数据，并存入MongoDB数据库中
今天就带大家从头到尾一步一步带着大家爬取虎扑论坛帖子的数据,里面涉及到的一些知识,我会给出学习的连接,大家可以自行去学习查看. 前期准备首先我们打开虎扑NBA论坛,我选择的是湖人专区(小湖迷一个). ...

scrapy将爬取的数据存入mysql_scrapy爬取数据存入MySQL

scrapy将爬取的数据存入mysql_scrapy爬取数据存入MySQL相关推荐

最新文章

热门文章