我们平时生活的娱乐中,看电影是大部分小伙伴都喜欢的事情。周围的人总会有意无意的在谈论,有什么影片上映,好不好看之类的话题,没事的时候谈论电影是非常不错的话题。那么,一些好看的影片如果不去电影院的话,在其他地方看都会有大大小小的限制,今天小编就教大家用python中的scrapy获取影片的办法吧。

1. 创建项目

运行命令:scrapy startproject myfrist(your_project_name)

文件说明: 名称 | 作用 --|-- scrapy.cfg | 项目的配置信息,主要为Scrapy命令行工具提供一个基础的配置信息。(真正爬虫相关的配置信息在settings.py文件中) items.py | 设置数据存储模板,用于结构化数据,如:Django的Model pipelines | 数据处理行为,如:一般结构化的数据持久化 settings.py | 配置文件,如:递归的层数、并发数,延迟下载等 spiders | 爬虫目录,如:创建文件,编写爬虫规则

注意:一般创建爬虫文件时,以网站域名命名

2 编写 spdier

在spiders目录中新建 daidu_spider.py 文件

2.1 注意

爬虫文件需要定义一个类,并继承scrapy.spiders.Spider

必须定义name,即爬虫名,如果没有name,会报错。因为源码中是这样定义的

2.2 编写内容

在这里可以告诉 scrapy 。要如何查找确切数据,这里必须要定义一些属性

name: 它定义了蜘蛛的唯一名称

allowed_domains: 它包含了蜘蛛抓取的基本URL;

start-urls: 蜘蛛开始爬行的URL列表;

parse(): 这是提取并解析刮下数据的方法;

下面的代码演示了蜘蛛代码的样子:import scrapy

class DoubanSpider(scrapy.Spider):

name = 'douban'

allwed_url = 'douban.com'

start_urls = [

'https://movie.douban.com/top250/'

]

def parse(self, response):

movie_name = response.xpath("//div[@class='item']//a/span[1]/text()").extract()

movie_core = response.xpath("//div[@class='star']/span[2]/text()").extract()

yield {

'movie_name':movie_name,

'movie_core':movie_core

}

以上的代码不是很复杂,小伙伴们已经按捺不住想要看电影愉悦的心情了,既然这样还在等什么呢,赶紧动手尝试下有没有自己喜欢的影片可以查看~更多Python学习推荐:PyThon学习网教学中心。

python scrapy爬虫电影_python爬虫如何用scrapy获取影片?相关推荐

  1. python scrapy爬虫电影_Python爬虫Scrapy框架(2) -- 爬取优酷电影进阶

    爬取更多的items,例如名字,主演,播放次数,电影海报,并进行多页爬取. items.py 1 importscrapy2 3 classYoukumoiveItem(scrapy.Item):4 ...

  2. scrapy mysql 豆瓣_Python爬虫之Scrapy+Mysql+Mongodb爬豆瓣top250电影

    学习python时,爬虫是一种简单上手的方式,应该也是一个必经阶段.本项目用Scrapy框架实现了抓取豆瓣top250电影,并将图片及其它信息保存下来.爬取豆瓣top250电影不需要登录.没有JS解析 ...

  3. python爬虫scrapy框架教程_Python爬虫教程-30-Scrapy 爬虫框架介绍

    从本篇开始学习 Scrapy 爬虫框架 Python爬虫教程-30-Scrapy 爬虫框架介绍 框架:框架就是对于相同的相似的部分,代码做到不出错,而我们就可以将注意力放到我们自己的部分了 常见爬虫框 ...

  4. 爬虫python下载电影_python爬虫:抓取下载电影文件,合并ts文件为完整视频

    目标网站:https://www.88ys.cc/vod-play-id-58547-src-1-num-1.html 反贪风暴4 对电影进行分析 我们发现,电影是按片段一点点加载出来的,我们分别抓取 ...

  5. python scrapy爬虫视频_python爬虫scrapy框架的梨视频案例解析

    之前我们使用lxml对梨视频网站中的视频进行了下载 下面我用scrapy框架对梨视频网站中的视频标题和视频页中对视频的描述进行爬取 分析:我们要爬取的内容并不在同一个页面,视频描述内容需要我们点开视频 ...

  6. python编程理论篇_Python爬虫入门实战之猫眼电影数据抓取(理论篇)

    前言 本文可能篇幅较长,但是绝对干货满满,提供了大量的学习资源和途径.达到让读者独立自主的编写基础网络爬虫的目标,这也是本文的主旨,输出有价值能够真正帮助到读者的知识,即授人以鱼不如授人以渔,让我们直 ...

  7. python 正则表达式提取数据_Python爬虫教程-19-数据提取-正则表达式(re)

    本篇主页内容:match的基本使用,search的基本使用,findall,finditer的基本使用,匹配中文,贪婪与非贪婪模式 Python爬虫教程-19-数据提取-正则表达式(re) 正则表达式 ...

  8. python爬取网页内容_Python爬虫原理解析

    笔者公众号:技术杂学铺 笔者网站:mwhitelab.com 本文将从何为爬虫.网页结构.python代码实现等方面逐步解析网络爬虫. 1. 何为爬虫 如今互联网上存储着大量的信息. 作为普通网民,我 ...

  9. python爬虫设计模式_Python爬虫进阶一之爬虫框架概述

    综述 爬虫入门之后,我们有两条路可以走. 一个是继续深入学习,以及关于设计模式的一些知识,强化Python相关知识,自己动手造轮子,继续为自己的爬虫增加分布式,多线程等功能扩展.另一条路便是学习一些优 ...

最新文章

  1. jquery模拟LCD 时钟
  2. js考试题 html5新特性,Web前端初级面试题总结
  3. 个人c++ 错误记录
  4. ES5 数组扩展方法 forEach/filter/map的使用与重写
  5. c ++查找字符串_C ++类和对象| 查找输出程序| 套装5
  6. web developer tips (78):使用文档大纲导航
  7. Gym 100553J Jokewithpermutation(dfs)
  8. AWK 高端大气上档次
  9. 九江职业学院计算机专业怎么样,请问九江职业大学和九江职业技术学院,相比之下哪个好一点?...
  10. .net中模拟键盘和鼠标操作
  11. 2019年2月22日 深入理解计算机系统(CS:APP)第一章读书笔记
  12. winform-Chrome-CefSharp库
  13. linux内核event原理,linux epoll epoll的原理;struct epoll_event 为什么要这样设计
  14. Atlas Resources
  15. 10g新特性之multi-block reads自动调优
  16. 【ATSC】ATSC数字测试专用ATSC Frequency
  17. Java去掉红色印章,基于RGB和HSV实现红色公章删除
  18. 杏子语录(2019年07月)
  19. Airpods Pro连接Macbook Pro偶尔会没有声音
  20. 复刻一个羊了个羊掘金商城版

热门文章

  1. Eclipse 一直不停 building workspace... 完美解决总结
  2. Nginx 实现按域名分类转发
  3. 金融行业平台常见安全漏洞与防御
  4. python 关键字(保留字)
  5. 利用正则表达式,实现Textarea换行保存
  6. 在Latex使用條列式清單itemize , enumerate , description [转]
  7. Latex中item的用法:自定义标号
  8. Python海龟作图
  9. String类的常用方法API
  10. 如何设置电脑息屏后才不会休眠?