Scrapy 爬取盗墓笔记小说

应用 Scrapy框架 爬取盗墓笔记小说数据,存入MongoDB 数据库。

# settings 配置mongodb
MONGODB_HOST = '127.0.0.1'
MONGODB_PORT = 27017
MONGODB_DBNAME = 'MySpider'
MONGODB_DOCNAME = 'daomubiji'
# items 配置抓取数据字段
import scrapyclass NovelItem(scrapy.Item):bookName = scrapy.Field()bookTitle = scrapy.Field()chapterNum = scrapy.Field()chapterName = scrapy.Field()chapterUrl = scrapy.Field()
# spider 抓取数据
import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
from novel.items import NovelItemclass DaomubijiSpider(CrawlSpider):name = 'daomubiji'allowed_domains = ['daomubiji.com']start_urls = ['http://www.daomubiji.com/']def parse_start_url(self, response):passrules = (Rule(LinkExtractor(restrict_xpaths='//article[@class="article-content"]//a'), callback='parse_item', follow=True),)def parse_item(self, response):item = NovelItem()list = response.xpath('//body')for listItem in list:item['bookName'] = listItem.xpath('.//h1[@class="focusbox-title"]/text()').get().split(':')[0]subList = listItem.xpath('.//div[@class="excerpts"]//article')for subListItem in subList:item['bookTitle'] = subListItem.xpath('.//a/text()').get().split(' ')[0]item['chapterNum'] = subListItem.xpath('.//a/text()').get().split(' ')[1]item['chapterName'] = subListItem.xpath('.//a/text()').get().split(' ')[2]item['chapterUrl'] = subListItem.xpath('.//a/@href').get()yield item
# pipeline 处理数据
from scrapy.conf import settings
import pymongoclass NovelPipeline(object):def __init__(self):host = settings['MONGODB_HOST']port = settings['MONGODB_PORT']dbName = settings['MONGODB_DBNAME']client = pymongo.MongoClient(host=host, port=port)db = client[dbName]self.post = db[settings['MONGODB_DOCNAME']]def open_spider(self, spider):print('This spider is starting!')def process_item(self, item, spider):bookInfo = dict(item)self.post.insert(bookInfo)return itemdef close_spider(self, spider):print('This spider is end!')

Scrapy 爬取盗墓笔记小说相关推荐

  1. scrapy爬取起点小说网

    闲来无事,在学习过程中练习用scrapy爬取起点小说名 工具:python3.6 操作系统:linux 浏览器:谷歌浏览器 创建项目 在黑屏终端创建一个项目:scrapy startproject Q ...

  2. Scrapy爬取顶点小说网

    Scrapy爬取小说 爬取目标:顶点小说网 1.Scrapy的安装 pip install scrapy 2.Scrapy的介绍 创建项目 scrapy startproject xxx xxx项目名 ...

  3. Scrapy爬取盗墓笔记 0.2版(mongedb redis)

    这次的爬虫相对于上一版来说,增加了对小说内容的爬取,并且利用了Redis数据库. 环境: win10 py3.6 pycharm scrapy1.6 main.py from scrapy impor ...

  4. scrapy爬取百万小说

    #爬取小说实列 第一步:创建一个scrapy工程[命令行中输入 scrapy startproject demo] 第二步:进入这个工程中,创建一个爬虫[scrapy nss zhuangji.org ...

  5. python如何利用scrapy爬取纵横小说三级链接内容并存储到数据库

    效果展示 settings.py# Scrapy settings for zongheng project # # For simplicity, this file contains only s ...

  6. Scrapy爬取顶点小说

    一.目标地址:www.23us.so/ 二.准备工作 1.开发环境 MacOS + PyCharm + Python3.5.3 + Scrapy + MySQL 2.安装Scrapy和MySQL自行解 ...

  7. 简单的scrapy爬取下载小说

    一.scrapy简介 scrapy结构 items.py:用来存放爬虫爬取下来数据的模型 middlewares.py:用来存放各种中间件的文件 pipelines.py:用来将items的模型存储到 ...

  8. python爬网页、爬到前几个就不动了_python scrapy 爬取起点小说,爬虫停止在第四页不动了...

    如题,我在测试爬虫的时候,终端出现了如下代码: 2019-04-20 15:04:51 [scrapy.core.engine] DEBUG: Crawled (200) (referer: http ...

  9. 起点小说免费看 Scrapy爬取起点小说网数据导入MongoDB数据

    本文中我们将详细介绍使用Scrapy抓取数据并存入MongoDB数据库,首先给出我们需要抓取得数据: 抓取起点网得全部作品,网址为:https://www.qidian.com/all 关于Scrap ...

最新文章

  1. HTMl中内联边框是怎样实现连接的
  2. 七大新品集中亮相,腾讯云AI大数据全线升级!
  3. discusz 判断当前页是门户还是论坛
  4. 语句拼接_第2课:一个周末学会R语言数据处理:表拆分和拼接
  5. PCI-E 5.0标准公布:速度再次翻番达32GT/s
  6. 如何远程调试zookeeper集群
  7. 共享智能榨汁机器人_新橙派果汁机器人-让智能现榨果汁触手可及
  8. ios常用第三方总结
  9. 基于RabbitMQ实现的订单超时功能-记录备查
  10. 启用计算机共享,电脑无法启用共享访问怎么办
  11. 学生综合素质评价系统c语言,学生综合素质评价表自我评价范文(2)
  12. Mybatis时区问题
  13. A+B 输入输出练习VIII
  14. 你知道上海社保缴费基数吗?上海各类人员的社保缴费基数
  15. [转贴]COM Interop 注册相关
  16. Android Settings 中wifi详情页 隐私默认选中设备mac
  17. 计算机tcpip网络原理与应用,清华大学出版社-图书详情-《TCP/IP网络编程原理与技术》...
  18. 大学计算机作业互评评语简短,【同学互评评语100字】同学作业互评评语(2).doc...
  19. hexo博客添加本地搜索功能
  20. 微信如何做到只接收某一个人的消息提醒

热门文章

  1. 数字IC验证:ARM协议之AMBA低功耗接口Q-channel
  2. MindSpore图片分类之LeNet网络池化和全连接
  3. qstring如何初始化_学习QT之QString详解
  4. 基于EKF滤波的二阶RC电池模型的Soc估计仿真
  5. 融云即时通讯云5大高级功能解决App运营诸多痛点
  6. 财经大学的计算机研究生行业认可度,适合中等生“捡漏”的财经大学,看似名气不大,但行业认可度高...
  7. 做真实的自己:不要试图让太多人喜欢你
  8. FX3开发入门系列EZ-USB FX3 Software Development Kit
  9. 钟振森:这是一个赚信息差的时代
  10. MOBA游戏战斗服务器设计思路