Scrapy 爬取盗墓笔记小说
Scrapy 爬取盗墓笔记小说
应用 Scrapy框架 爬取盗墓笔记小说数据,存入MongoDB 数据库。
# settings 配置mongodb
MONGODB_HOST = '127.0.0.1'
MONGODB_PORT = 27017
MONGODB_DBNAME = 'MySpider'
MONGODB_DOCNAME = 'daomubiji'
# items 配置抓取数据字段
import scrapyclass NovelItem(scrapy.Item):bookName = scrapy.Field()bookTitle = scrapy.Field()chapterNum = scrapy.Field()chapterName = scrapy.Field()chapterUrl = scrapy.Field()
# spider 抓取数据
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from novel.items import NovelItemclass DaomubijiSpider(CrawlSpider):name = 'daomubiji'allowed_domains = ['daomubiji.com']start_urls = ['http://www.daomubiji.com/']def parse_start_url(self, response):passrules = (Rule(LinkExtractor(restrict_xpaths='//article[@class="article-content"]//a'), callback='parse_item', follow=True),)def parse_item(self, response):item = NovelItem()list = response.xpath('//body')for listItem in list:item['bookName'] = listItem.xpath('.//h1[@class="focusbox-title"]/text()').get().split(':')[0]subList = listItem.xpath('.//div[@class="excerpts"]//article')for subListItem in subList:item['bookTitle'] = subListItem.xpath('.//a/text()').get().split(' ')[0]item['chapterNum'] = subListItem.xpath('.//a/text()').get().split(' ')[1]item['chapterName'] = subListItem.xpath('.//a/text()').get().split(' ')[2]item['chapterUrl'] = subListItem.xpath('.//a/@href').get()yield item
# pipeline 处理数据
from scrapy.conf import settings
import pymongoclass NovelPipeline(object):def __init__(self):host = settings['MONGODB_HOST']port = settings['MONGODB_PORT']dbName = settings['MONGODB_DBNAME']client = pymongo.MongoClient(host=host, port=port)db = client[dbName]self.post = db[settings['MONGODB_DOCNAME']]def open_spider(self, spider):print('This spider is starting!')def process_item(self, item, spider):bookInfo = dict(item)self.post.insert(bookInfo)return itemdef close_spider(self, spider):print('This spider is end!')
Scrapy 爬取盗墓笔记小说相关推荐
- scrapy爬取起点小说网
闲来无事,在学习过程中练习用scrapy爬取起点小说名 工具:python3.6 操作系统:linux 浏览器:谷歌浏览器 创建项目 在黑屏终端创建一个项目:scrapy startproject Q ...
- Scrapy爬取顶点小说网
Scrapy爬取小说 爬取目标:顶点小说网 1.Scrapy的安装 pip install scrapy 2.Scrapy的介绍 创建项目 scrapy startproject xxx xxx项目名 ...
- Scrapy爬取盗墓笔记 0.2版(mongedb redis)
这次的爬虫相对于上一版来说,增加了对小说内容的爬取,并且利用了Redis数据库. 环境: win10 py3.6 pycharm scrapy1.6 main.py from scrapy impor ...
- scrapy爬取百万小说
#爬取小说实列 第一步:创建一个scrapy工程[命令行中输入 scrapy startproject demo] 第二步:进入这个工程中,创建一个爬虫[scrapy nss zhuangji.org ...
- python如何利用scrapy爬取纵横小说三级链接内容并存储到数据库
效果展示 settings.py# Scrapy settings for zongheng project # # For simplicity, this file contains only s ...
- Scrapy爬取顶点小说
一.目标地址:www.23us.so/ 二.准备工作 1.开发环境 MacOS + PyCharm + Python3.5.3 + Scrapy + MySQL 2.安装Scrapy和MySQL自行解 ...
- 简单的scrapy爬取下载小说
一.scrapy简介 scrapy结构 items.py:用来存放爬虫爬取下来数据的模型 middlewares.py:用来存放各种中间件的文件 pipelines.py:用来将items的模型存储到 ...
- python爬网页、爬到前几个就不动了_python scrapy 爬取起点小说,爬虫停止在第四页不动了...
如题,我在测试爬虫的时候,终端出现了如下代码: 2019-04-20 15:04:51 [scrapy.core.engine] DEBUG: Crawled (200) (referer: http ...
- 起点小说免费看 Scrapy爬取起点小说网数据导入MongoDB数据
本文中我们将详细介绍使用Scrapy抓取数据并存入MongoDB数据库,首先给出我们需要抓取得数据: 抓取起点网得全部作品,网址为:https://www.qidian.com/all 关于Scrap ...
最新文章
- HTMl中内联边框是怎样实现连接的
- 七大新品集中亮相,腾讯云AI大数据全线升级!
- discusz 判断当前页是门户还是论坛
- 语句拼接_第2课:一个周末学会R语言数据处理:表拆分和拼接
- PCI-E 5.0标准公布:速度再次翻番达32GT/s
- 如何远程调试zookeeper集群
- 共享智能榨汁机器人_新橙派果汁机器人-让智能现榨果汁触手可及
- ios常用第三方总结
- 基于RabbitMQ实现的订单超时功能-记录备查
- 启用计算机共享,电脑无法启用共享访问怎么办
- 学生综合素质评价系统c语言,学生综合素质评价表自我评价范文(2)
- Mybatis时区问题
- A+B 输入输出练习VIII
- 你知道上海社保缴费基数吗?上海各类人员的社保缴费基数
- [转贴]COM Interop 注册相关
- Android Settings 中wifi详情页 隐私默认选中设备mac
- 计算机tcpip网络原理与应用,清华大学出版社-图书详情-《TCP/IP网络编程原理与技术》...
- 大学计算机作业互评评语简短,【同学互评评语100字】同学作业互评评语(2).doc...
- hexo博客添加本地搜索功能
- 微信如何做到只接收某一个人的消息提醒
热门文章
- 数字IC验证:ARM协议之AMBA低功耗接口Q-channel
- MindSpore图片分类之LeNet网络池化和全连接
- qstring如何初始化_学习QT之QString详解
- 基于EKF滤波的二阶RC电池模型的Soc估计仿真
- 融云即时通讯云5大高级功能解决App运营诸多痛点
- 财经大学的计算机研究生行业认可度,适合中等生“捡漏”的财经大学,看似名气不大,但行业认可度高...
- 做真实的自己:不要试图让太多人喜欢你
- FX3开发入门系列EZ-USB FX3 Software Development Kit
- 钟振森:这是一个赚信息差的时代
- MOBA游戏战斗服务器设计思路