python增量爬虫_python网络爬虫—

#1.spider文件

importscrapyfrom movieAddPro.items importMovieaddproItemfrom scrapy.linkextractors importLinkExtractorfrom scrapy.spiders importCrawlSpider, Rulefrom redis importRedisclassMovieaddSpider(CrawlSpider):

name= 'movieadd'

#allowed_domains = ['www.xxx.com']

start_urls= ['https://www.4567tv.tv/frim/index1.html']

link= LinkExtractor(allow=r'.frim/index1-\d+.html')

rules=(

Rule(link, callback='parse_item', follow=True),

)#创建reids连接对象

conn = Redis(host='127.0.0.1',port=6379)#解析电影的名称和详情页的url

defparse_item(self, response):

li_list= response.xpath('/html/body/div[1]/div/div/div/div[2]/ul/li')for li inli_list:

title= li.xpath('./div/a/@title').extract_first()#获取详情页url

detail_url = 'https://www.4567tv.tv' + li.xpath('./div/a/@href').extract_first()

item=MovieaddproItem()

item['title'] =title#判断该详情页的url是否进行请求发送

ex = self.conn.sadd('movieadd_detail_urls',detail_url)if ex == 1: #说明detail_url之前不存在redis的set集合中，需要发送请求

print('已有新数据更新，正在爬取数据......')yield scrapy.Request(url=detail_url,callback=self.parse_detail,meta={'item':item})else:print('暂无新数据更新......')defparse_detail(self,response):

item= response.meta['item']

desc= response.xpath('/html/body/div[1]/div/div/div/div[2]/p[5]/span[3]/text()').extract_first()

item['desc'] =descyielditem--------------------------------------------------------------------------------

#2.pipelines文件

classMovieaddproPipeline(object):defprocess_item(self, item, spider):

dic={'title':item['title'],'desc':item['desc']

}print(dic)

conn=spider.conn

conn.lpush('movieadd_data',dic)returnitem--------------------------------------------------------------------------------

#3.items文件

importscrapyclassMovieaddproItem(scrapy.Item):

title=scrapy.Field()

desc=scrapy.Field()--------------------------------------------------------------------------------

#4.setting文件

BOT_NAME= 'movieAddPro'SPIDER_MODULES= ['movieAddPro.spiders']

NEWSPIDER_MODULE= 'movieAddPro.spiders'USER_AGENT= 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.132 Safari/537.36'ROBOTSTXT_OBEY=False

LOG_LEVEL= 'ERROR'ITEM_PIPELINES={'movieAddPro.pipelines.MovieaddproPipeline': 300,

}

python增量爬虫_python网络爬虫——增量式爬虫相关推荐

[开源 .NET 跨平台 Crawler 数据采集爬虫框架: DotnetSpider] [三] 配置式爬虫
[DotnetSpider 系列目录] 一.初衷与架构设计二.基本使用三.配置式爬虫四.JSON数据解析与配置系统五.如何做全站采集上一篇介绍的基本的使用方式,自由度很高,但是编写的代码相对 ...
python udp通信_Python网络编程（三）
回顾在<Python进阶记录之网络编程(二)>中,我们介绍了UDP端口号的基本概念和作用以及Python中UDP服务端的端口绑定和简单创建.今天我们利用UDP server和UDP cl ...
python网络爬虫_Python网络爬虫——爬取视频网站源视频！
原标题:Python网络爬虫--爬取视频网站源视频! 学习前提 1.了解python基础语法 2.了解re.selenium.BeautifulSoup.os.requests等python第三方库 ...
python古诗默写_Python网络爬虫：爬取古诗文中的某个制定诗句来实现搜索
Python网络爬虫:爬取古诗文中的某个制定诗句来实现搜索发布时间:2020-07-20 23:48:19 来源:51CTO 阅读:883 python编译练习,为了将自己学习过的知识用上,自己找了 ...
python外国网站爬虫_python 网络爬虫-爬取网页外部网站
前言上一篇中我们在维基百科的内部网站上随机跳转进入文章类网页,而忽视外部网站链接.本篇文章将处理网站的外部链接并试图收集一些网站数据.和单个域名网站爬取不同,不同域名的网站结构千差万别,这就意味我们 ...
python天涯帖子_python 网络爬虫（一）爬取天涯论坛评论
我是一个大二的学生,也是刚接触python,接触了爬虫感觉爬虫很有趣就爬了爬天涯论坛,中途碰到了很多问题,就想把这些问题分享出来, 都是些简单的问题,希望大佬们以宽容的眼光来看一个小菜鸟
lofter 爬虫_Python网络爬虫1 - 爬取网易LOFTER图片
LOFTER是网易出品的优质轻博客,灵感源于国外的tumblr,但比之更加文艺,更加本地化.本人非常喜欢LOFTER的UI设计,以及其中的优质用户和内容,似乎网易并不擅长推广,所以受众并不广泛.这都是 ...
python定时爬虫_python 每天如何定时启动爬虫任务(实现方法分享)
python2.7环境下运行安装相关模块想要每天定时启动,最好是把程序放在linux服务器上运行,毕竟linux可以不用关机,即定时任务一直存活: #coding:utf8 import date ...
python 小说小说_python潇湘书院网站小说爬虫
很久没有写爬虫了,最近接到一个抓取小说的项目顺便做此纪录练练手,之后工作中可能也会有部分场景要用到爬虫,爬取竞争对手进行数据分析什么的. 目标网站:潇湘书院环境准备: python3 request ...
python自动保存图片_Python学习笔记：利用爬虫自动保存图片
兴趣才是第一生产驱动力. Part 1 起先,源于对某些网站图片浏览只能一张一张的翻页,心生不满.某夜,冒出一个想法,为什么我不能利用爬虫技术把想看的图片给爬下来,然后在本地看个够. 由此经过一番初尝 ...

python增量爬虫_python网络爬虫——增量式爬虫

python增量爬虫_python网络爬虫——增量式爬虫相关推荐

最新文章

热门文章