#1.spider文件

importscrapyfrom movieAddPro.items importMovieaddproItemfrom scrapy.linkextractors importLinkExtractorfrom scrapy.spiders importCrawlSpider, Rulefrom redis importRedisclassMovieaddSpider(CrawlSpider):

name= 'movieadd'

#allowed_domains = ['www.xxx.com']

start_urls= ['https://www.4567tv.tv/frim/index1.html']

link= LinkExtractor(allow=r'.frim/index1-\d+.html')

rules=(

Rule(link, callback='parse_item', follow=True),

)#创建reids连接对象

conn = Redis(host='127.0.0.1',port=6379)#解析电影的名称和详情页的url

defparse_item(self, response):

li_list= response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li')for li inli_list:

title= li.xpath('./div/a/@title').extract_first()#获取详情页url

detail_url = 'https://www.4567tv.tv' + li.xpath('./div/a/@href').extract_first()

item=MovieaddproItem()

item['title'] =title#判断该详情页的url是否进行请求发送

ex = self.conn.sadd('movieadd_detail_urls',detail_url)if ex == 1: #说明detail_url之前不存在redis的set集合中,需要发送请求

print('已有新数据更新,正在爬取数据......')yield scrapy.Request(url=detail_url,callback=self.parse_detail,meta={'item':item})else:print('暂无新数据更新......')defparse_detail(self,response):

item= response.meta['item']

desc= response.xpath('/html/body/div[1]/div/div/div/div[2]/p[5]/span[3]/text()').extract_first()

item['desc'] =descyielditem--------------------------------------------------------------------------------

#2.pipelines文件

classMovieaddproPipeline(object):defprocess_item(self, item, spider):

dic={'title':item['title'],'desc':item['desc']

}print(dic)

conn=spider.conn

conn.lpush('movieadd_data',dic)returnitem--------------------------------------------------------------------------------

#3.items文件

importscrapyclassMovieaddproItem(scrapy.Item):

title=scrapy.Field()

desc=scrapy.Field()--------------------------------------------------------------------------------

#4.setting文件

BOT_NAME= 'movieAddPro'SPIDER_MODULES= ['movieAddPro.spiders']

NEWSPIDER_MODULE= 'movieAddPro.spiders'USER_AGENT= 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'ROBOTSTXT_OBEY=False

LOG_LEVEL= 'ERROR'ITEM_PIPELINES={'movieAddPro.pipelines.MovieaddproPipeline': 300,

}

python增量爬虫_python网络爬虫——增量式爬虫相关推荐

  1. [开源 .NET 跨平台 Crawler 数据采集 爬虫框架: DotnetSpider] [三] 配置式爬虫

    [DotnetSpider 系列目录] 一.初衷与架构设计 二.基本使用 三.配置式爬虫 四.JSON数据解析与配置系统 五.如何做全站采集 上一篇介绍的基本的使用方式,自由度很高,但是编写的代码相对 ...

  2. python udp通信_Python网络编程(三)

    回顾 在<Python进阶记录之网络编程(二)>中,我们介绍了UDP端口号的基本概念和作用以及Python中UDP服务端的端口绑定和简单创建.今天我们利用UDP server和UDP cl ...

  3. python网络爬虫_Python网络爬虫——爬取视频网站源视频!

    原标题:Python网络爬虫--爬取视频网站源视频! 学习前提 1.了解python基础语法 2.了解re.selenium.BeautifulSoup.os.requests等python第三方库 ...

  4. python古诗默写_Python网络爬虫:爬取古诗文中的某个制定诗句来实现搜索

    Python网络爬虫:爬取古诗文中的某个制定诗句来实现搜索 发布时间:2020-07-20 23:48:19 来源:51CTO 阅读:883 python编译练习,为了将自己学习过的知识用上,自己找了 ...

  5. python外国网站爬虫_python 网络爬虫-爬取网页外部网站

    前言 上一篇中我们在维基百科的内部网站上随机跳转进入文章类网页,而忽视外部网站链接.本篇文章将处理网站的外部链接并试图收集一些网站数据.和单个域名网站爬取不同,不同域名的网站结构千差万别,这就意味我们 ...

  6. python天涯帖子_python 网络爬虫(一)爬取天涯论坛评论

    我是一个大二的学生,也是刚接触python,接触了爬虫感觉爬虫很有趣就爬了爬天涯论坛,中途碰到了很多问题,就想把这些问题分享出来, 都是些简单的问题,希望大佬们以宽容的眼光来看一个小菜鸟

  7. lofter 爬虫_Python网络爬虫1 - 爬取网易LOFTER图片

    LOFTER是网易出品的优质轻博客,灵感源于国外的tumblr,但比之更加文艺,更加本地化.本人非常喜欢LOFTER的UI设计,以及其中的优质用户和内容,似乎网易并不擅长推广,所以受众并不广泛.这都是 ...

  8. python定时爬虫_python 每天如何定时启动爬虫任务(实现方法分享)

    python2.7环境下运行 安装相关模块 想要每天定时启动,最好是把程序放在linux服务器上运行,毕竟linux可以不用关机,即定时任务一直存活: #coding:utf8 import date ...

  9. python 小说 小说_python潇湘书院网站小说爬虫

    很久没有写爬虫了,最近接到一个抓取小说的项目顺便做此纪录练练手,之后工作中可能也会有部分场景要用到爬虫,爬取竞争对手进行数据分析什么的. 目标网站:潇湘书院 环境准备: python3 request ...

  10. python自动保存图片_Python学习笔记:利用爬虫自动保存图片

    兴趣才是第一生产驱动力. Part 1 起先,源于对某些网站图片浏览只能一张一张的翻页,心生不满.某夜,冒出一个想法,为什么我不能利用爬虫技术把想看的图片给爬下来,然后在本地看个够. 由此经过一番初尝 ...

最新文章

  1. Solr安装步骤 + dataimport导入数据配置
  2. 基于UDP的服务器端和客户端
  3. TensorFlow2-循环神经网络
  4. MySQL索引知识点
  5. 亦云小组KTV点歌系统简介
  6. flask 上传 excel 并导入mysql
  7. 老板必须亲自抓销售,公司越小越如此
  8. 小升初数学计算机考试题,【2020年小升初数学常考题型及易错题分析】- 环球网校...
  9. 数据库学习--DQL(数据库查询语言)
  10. 用python爬虫批量下载pdf
  11. 七段式svpwm和5段式的区别_SVPWM实现概述
  12. 最新架构amd服务器cpu,2015年或新变化?AMD将专注高性能架构
  13. JavaScript 实现音乐播放器
  14. 智能未来:聚焦2018世界人工智能大会
  15. 数据结构——AOV图与算法——拓扑排序
  16. 什么是游戏盾防护?防护DDOS攻击无视CC攻击
  17. 电动车NFC一键启动(仪表总成、电源锁)_Ci522 Ci523_小体积超低成本13.56M非接触式读写器芯片
  18. api 定位 微信小程序 精度_微信小程序3种位置API的使用方法详解
  19. Linux安装FTP服务(Pure-FTPd)
  20. 为什么功放做得这么复杂?

热门文章

  1. 《计算机网络教程》(微课版 第五版)第一章 概述 课后习题及答案
  2. 尚学堂马士兵struts2 课堂笔记(三)
  3. 车载android播放器,KX万能播放器
  4. Ember -Routes
  5. 游戏制作大师RPGMAKER MV/MZ安装DLC的方法
  6. win10亮度_安利一款PC端调节多显示器亮度的软件
  7. 计算机英语背诵发音,联想法巧记英语单词5000发音记忆法背单词
  8. STRUTS 2 教程
  9. 金蝶系统安装后怎么连服务器,金蝶安装在云服务器上怎么连接
  10. k3系统的架构及简介