网站视频详情页-网站-实践-scrapy框架

文章目录

1 创建项目
2 目标内容
3 Spider初始化
- 3.1 域名起始页
- 3.2 起始页跳转详情页
4 测试
- 4.1 robots.txt报错
- 4.2 设置header
5 后记

1 创建项目

步骤：

创建项目
构建虚拟环境
生成Spider

创建项目后，目录图示：

上面的步骤及使用的具体命令这里不再赘述，如有需求可以自行查阅相关文档或者看下之前的文章。

2 目标内容

下面呢我们来爬取一个视频网站，通过首页发现菜单->作品，来到视频列表，这就算我们要爬取的内容。

那么具体有哪些呢？我们随便点开一个视频，看下视频详情页，f12打开面板，图示：

。要爬取的内容包括：

title：视频标题
category：视频分类
…

上面只列举了部分字段，后面如有需要，可以在添加。

构建Item如下：

from scrapy import Item, Fieldclass XpcWorkItem(Item):# 网页idarticle_id = Field()# 视频idmedia_id = Field()# 信息urlinfo_url = Field()# 标题title = Field()# 视频appKeyapp_key = Field()# 视频源地址video_url = Field()# 封面cover = Field()# 分类category = Field()# 描述description = Field()# 点赞likes = Field()# 收藏collections = Field()# 播放量play_counts = Field()# 发布时间publish_time = Field()# 发布地址ip_location = Field()

3 Spider初始化

3.1 域名起始页

这个很容易：

allowed_domains = ['xxx.com']
start_urls = ['https://www.xxx.com/channel/index/sort-like?from=navigator']

如有问题，可查阅url相关文档。

3.2 起始页跳转详情页

首先我们通过详情页f12查找视频对应的a标签是否有跳转地址，结果并没有，图示：

那么我们在去详情页看下url：

https://www.xxx.com/a12129151?from=ArticleList

那么存在变量的地方就是这个a12129151 。

在返回视频列表搜索a12129151或者12129151发现 li标签其中data-articleid属性的值就是前面的数字。

需要构建的url:

https://www.xxx.com/a%s?from=ArticleList

这个%s需要我们通过页面抓取，代码如下：

    def parse(self, response):# 获取每个视频详情页urlpid_list = response.xpath('//ul[@class="video-list"]/li/@data-articleid').getall()pid_list = response.css('ul.video-list.li::attr(data-articleid)').getall()url = 'https://www.xxx.com/a%s?from=ArticleList'for pid in pid_list:print(url % pid)yield response.follow(url % pid, self.parse_item)

4 测试

4.1 robots.txt报错

测试报错：

2022-09-28 18:05:46 [scrapy.core.engine] DEBUG: Crawled (200) <GET https://www.xxx.com/robots.txt> (referer: None)
2022-09-28 18:05:46 [scrapy.downloadermiddlewares.robotstxt] DEBUG: Forbidden by robots.txt: <GET https://www.xxx.com/channel/index/sort-like?from=navigator>
2022-09-28 18:05:46 [scrapy.core.engine] INFO: Closing spider (finished)
2022-09-28 18:05:46 [scrapy.statscollectors] INFO: Dumping Scrapy stats:

哎，这是啥情况，我们访问robots.txt的时候被拒绝了。关于robots.txt，如果有不懂的小伙伴，可自行查阅相关文档。下面我们来看下robots.txt具体什么内容：

...User-agent: xxxspider
Crawl-delay: 1
Disallow: /api/
Allow: /...

简单翻译下就是：除了代理是xxxspider,…被允许访问除/api/路径下所有资源，其他一概拒绝。

4.2 设置header

这里我们就按要求设置User-Agent，设置的话可以全局设置或者部分设置：

全局：整个项目生效，在settings.py中设置
部分生效：
- 某个Spider生效
- 单独的Request生效：本例采用

headers = {'User-Agent': 'xxxspider'}

这里的xxx为某度

通过给每个Request对象来设置此header信息。

    def start_requests(self):return [Request(url=self.start_urls[0], callback=self.parse, headers=self.headers)]def parse(self, response):# 获取每个视频详情页urlpid_list = response.xpath('//ul[@class="video-list"]/li/@data-articleid').getall()# pid_list = response.css('ul.video-list.li::attr(data-articleid)').getall()url = 'https://www.xxx.com/a%s?from=ArticleList'yield response.follow(url % pid_list[0], self.parse_item, headers=self.headers, cb_kwargs={"aid": pid_list[0]})

因为是测试，我们只测试了一个视频。结果：

2022-09-28 18:15:30 [scrapy.core.scraper] DEBUG: Scraped from <200 https://app.xxx.com/article/12129151>

访问成功，至此完成详情页的访问。后续代码持续更新，源代码在下面代码仓库。

5 后记

上面的xxx，我是用的xinpianchang测试的，可自行选取网址测试。

代码仓库：https://gitee.com/gaogzhen/python-study.git