scrapy将爬取的数据存入mysql_scrapy爬取数据存入MySQL
创建工程
scrapy startproject tutorial
创建蜘蛛
scrapy genspider crawl_mysql inputMysql http://lab.scrapyd.cn/
编写Item
class InputMysqlItem(scrapy.Item):
tags = scrapy.Field()
content = scrapy.Field()
编写创建数据库
创建数据库:
CREATE DATABASE db DEFAULT CHARACTER SET utf8
创建需要的表:CREATE TABLE crawl_my( id INTEGER NOT NULL tags VARCHAR(64) NULL, content VARCHAR(255) NULL) ENGINE = InnoDB;
编写pipline
import pymysql.cursors
class MySQLPipeline(object):
def __init__(self):
#链接数据库
self.connect = pymysql.connect(
host = '127.0.0.1',#数据库地址
port = 3306,#数据库端口
db = 'db',#数据库名称
user = 'root',#数据库用户名
passwd = 'root',#数据库密码
charset = 'utf8',#数据库编码
use_unicode = True
)
#拿到操作数据库的游标
self.cursor = self.connect.cursor()
def process_item(self,item,spider):
self.cursor.execute(
'''
insert into crawl_my(tags,content)
VALUE (%s,%s)
''',(item['tags'],item['content'])
)
#提交sql
self.connect.commit()
return item
在setting设置pipline
ITEM_PIPELINES = {
# 'tutorial.pipelines.FlowPipline': 300,
# 'tutorial.pipelines.MyImagesPipeline': 1,
'tutorial.pipelines.MySQLPipeline': 1,
# 'scrapy.contrib.pipeline.images.ImagesPipeline':1,
}
爬取spider
import scrapy
from tutorial.items import InputMysqlItem
class CrawlMysqlSpider(scrapy.Spider):
name = 'crawl_mysql'
allowed_domains = ['lab.scrapyd.cn']
start_urls = ['http://lab.scrapyd.cn/']
def parse(self, response):
item = InputMysqlItem()
for sel in response.css('div.quote'):
item['content'] = sel.css('.text::text').extract_first()
tags = sel.css('.tags .tag::text').extract()
item['tags'] = ','.join(tags)
yield item
#获取下一页链接
next_page = response.css('li.next a::attr(href)').extract_first()
if next_page is not None:
next_page = response.urljoin(next_page)
yield scrapy.Request(next_page,callback=self.parse)
scrapy将爬取的数据存入mysql_scrapy爬取数据存入MySQL相关推荐
- scrapy过滤重复数据和增量爬取
原文链接 前言 这篇笔记基于上上篇笔记的---<scrapy电影天堂实战(二)创建爬虫项目>,而这篇又涉及redis,所以又先熟悉了下redis,记录了下<redis基础笔记> ...
- [Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(三) —— 数据的持久化——使用MongoDB存储爬取的数据
上一篇:[Python 爬虫] 使用 Scrapy 爬取新浪微博用户信息(二) -- 编写一个基本的 Spider 爬取微博用户信息 在上一篇博客中,我们已经新建了一个爬虫应用,并简单实现了爬取一位微 ...
- scrapy中集成selenium+浏览器池实现selenium的并发爬取LCSC网站中非结构化表格数据+异步存储进mysql+完整代码
爬取https://lcsc.com/products/Connectors_365.html这个网址下所有的表格数据. 蓝色的都是要爬取的子页面,要爬取子页面里面的表格数据 ,表格数据如下: 右上角 ...
- python中scrapy可以爬取多少数据_python scrapy框架爬取某站博人传评论数据
1. B站博人传评论数据爬取简介 今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...
- python爬取b站评论_Python爬虫框架:scrapy抓取B站博人传评论数据
1. B站博人传评论数据爬取简介 今天想了半天不知道抓啥,去B站看跳舞的小姐姐,忽然看到了评论,那就抓取一下B站的评论数据,视频动画那么多,也不知道抓取哪个,选了一个博人传跟火影相关的,抓取看看.网址 ...
- 爬取猫眼票房保存在MySQL_Scrapy爬取猫眼电影并存入MongoDB数据库
之前入门了Scrapy,用Scrapy框架爬取豆瓣TOP250,最近打算学习下scrapy-redis分布式爬虫,学习之前再重新温故下Scrapy,这个总结我缩写了很多内容,很多介绍可以看下我之前写的 ...
- 知乎爬虫(scrapy默认配置下单机1小时可爬取60多万条数据)
知乎爬虫(scrapy默认配置下单机1小时可爬取60多万条数据) 版本:1.0 作者: AlexTan CSDN: http://blog.csdn.net/alextan_ e-mail: alex ...
- 运用Scrapy框架爬取淘车网十七万二手车数据
本篇内容将使用scrapy框架爬取淘车网所有二手车信息. 下面开始讲解下如何爬取我们想要的数据: 明确爬取目标: 首先,进入官网:https://www.taoche.com/ 进入官网发现,我们要获 ...
- python爬虫爬取虎扑湖人论坛专区帖子数据,并存入MongoDB数据库中
今天就带大家从头到尾一步一步带着大家爬取虎扑论坛帖子的数据,里面涉及到的一些知识,我会给出学习的连接,大家可以自行去学习查看. 前期准备 首先我们打开虎扑NBA论坛,我选择的是湖人专区(小湖迷一个). ...
最新文章
- 云知声CEO黄伟:AI对产业的驱动不仅是创新更是颠覆
- Python+selenium环境搭建
- leetcode-6-Z 字形变换
- React中判断已完成的个数
- MyEclipse+JavaEE+jsp+sqlsever实现产品售后服务系统
- 小熊的人生回忆(一)
- 原子操作、互斥锁、读写锁
- python动态爱心代码_python如何动态绘制爱心 python动态绘制爱心代码示例
- c语言et1tr1怎么用,TMOD=0x11;ET0=1;TR0=0;ET1=1;TR1=0;EA=1;这是什么意思啊??谢谢啦
- python题目-青蛙跳井口
- 【中医学】9 方剂-1
- redis-trib.rb找不到
- 鱼跃CMS-轻量开源企业CMS v1.4.6
- 史上首次!个人所得税退税来了!如何退?怎么操作?
- 数据挖掘机器学习[七]---2021研究生数学建模B题空气质量预报二次建模求解过程:基于Stacking机器学习混合模型的空气质量预测{含码源+pdf文章}
- 一步步教你轻松学关联规则Apriori算法
- 【lepus】开源数据库监控rhel8.4安装教程(包含开机脚本)
- 四选一多路开关电路描述
- 导出数据库表信息生成Word文档
- 第11篇- 抓取免费代理IP并搭建自己的代理IP池
热门文章
- 一花一树一城,走进三维重建的绚丽世界|专访权龙...
- docker下安装typecho建立自己得博客系统(1)dockerfile篇
- SpringCloud持续集成项目部署
- python excel单元格 剪切清除粘贴复制_Excel复制粘贴时弹出“不能清除剪贴板”的解决方法...
- 深度学习入门笔记(十一):权重初始化
- android 游戏sdk嫁接方式
- 可使用 git 操作的数据库 dolt
- 浅析电脑前的“游荡状态”
- python数字精度自动变化_如何在python中将一个数字转换成12位精度?
- 计算机网络多项式的定义,使用多项式方法定义一个圆