Scrapy电影天堂最新电影信息爬取
环境:python 2.7
创建scrapy项目过程可见本人博客其他文章,这里不再赘述
直接上代码
主要代码
# -*- coding: utf-8 -*-
import scrapyclass DyttSpider(scrapy.Spider):name = 'dytt'allowed_domains = ['ygdy8.net']start_urls = ['http://www.ygdy8.net/html/gndy/dyzz/index.html']def parse(self, response):#print '***********>',response#extract_first('默认值')取出列表第一个元素,为空返回默认值title=response.xpath('//title/text()').extract()[0]#print titlehrefs = response.xpath('//a[@class="ulink"]/@href')# for循环取出所有的href值#for href in hrefs:#print hreftotal_page = response.xpath('//select[@name="sldd"]/option[last()]/text()').extract_first('0')#print total_pagefor x in range(2, int(total_page) + 1):#print '正在爬取第%s页数据,请稍后....' % x# 根据x的值,拼接完整页面url地址url = 'http://www.ygdy8.net/html/gndy/dyzz/list_23_%s.html' %x#和return类似,不会结束函数的执行#返回一个请求对象yield scrapy.Request(url)
Scrapy电影天堂最新电影信息爬取相关推荐
- 爬取电影天堂最新电影(xpath结合lxml)
完整代码 import requests from lxml import etree from openpyxl import WorkbookBASEURL='https://www.dytt8. ...
- 爬取电影天堂最新电影的名称和下载链接
此次的目标是爬取电影天堂最新200页的最新电影的电影名称和下载链接,电影的下载链接在二级页面,所以需要先匹配一级页面的所有链接,然后逐个请求二级页面,代码如下: """爬 ...
- 【宅男宅女们的福音】电影天堂最新电影爬取及搜索脚本
多线程电影天堂最新资源爬取脚本.电影搜索脚本 PS:方便大家使用写到了HTML中生成表格. 线程可以在脚本里直接改,测试线程为30时IP可能会被限制访问.[阳光电影是电影天堂的马甲] 环境: Pyth ...
- Python 利用requests+BeautifulSoup4编写原生爬虫,爬取电影天堂最新电影,并打造最新电影下载及查询器
可能有许多人有这样的一种烦恼,当想要查看最近更新的电影时,不得不打开电影天堂的官网进行查询(当然如果你习惯用电影天堂下载电影的话/微笑),当点击了解电影详情的时候,网页往往就切换到了广告页面,很烦有没 ...
- 人生苦短,用Python爬取迅雷电影天堂最新电影ed2k
第一步仍然是创建scrapy项目与spider文件 切换到工作目录两条命令依次输入 scrapy startproject xunleidianying scrapy genspider xunlei ...
- python下载电影天堂_【PY】没有电影看?来教你用Python爬取电影天堂最新电影!...
项目开始 第一步仍然是创建scrapy项目与spider文件 切换到工作目录两条命令依次输入 scrapy startproject xunleidianying scrapy genspider x ...
- python3 爬取电影天堂最新电影
''' 作业 爬去dytt 2019新片精品 -> 把所有电影的名字, 主演, 下载链接. 放在一个json文件里 {{"main_people": ["井柏然&q ...
- 爬虫python下载电影_python爬虫抓取电影天堂最新电影
该小脚本实现对电影天堂网站的最新电影查找.from bs4 import BeautifulSoup import urllib import re url= 'http://www.ygdy8.ne ...
- python实现电影天堂种子磁力的爬取
import requests,redef getdetail(url):response = requests.get(url)#dytt的编码为gbk非utf-8html = response.c ...
最新文章
- JavaScript之图片的无缝滚动
- 服务器mysql数据库安装教程视频教程_MySQL数据库管理系统安装实际操作_MySQL教程视频 - 动力节点...
- Variant 与 内存泄露
- python画tan_Python入门之三角函数tan()函数实例详解
- Python全栈开发:web框架们
- opencv roberts算子_图像之HOG特征描述算子-行人检测
- 22. PE结构-PE详解之输入表(导入表)、屠龙刀W32Dasm(静态)、LordPE(动态)工具入门(查找dll、调用函数)
- es6 __proto__属性,Object.setPrototypeOf(),Object.getPrototypeOf()
- 小米手机困境,米粉伤心,黄牛伤钱
- Python高速缓存和会话库——Beaker
- 深入理解Amazon Alexa Skill(一)
- 第三方登录数据库用户表结构设计
- U盘内文件变为快捷方式怎么办?【一招解决】
- HDMI EDID概念梳理
- 程序员需知的11个在线教程网站,建议收藏!
- 初出茅庐的小李第63博客之FastLED库的使用
- 读《与赛博空间共存》
- 赛扬处理器_首批15瓦四核处理器即将成为历史:英特尔宣布停产4个型号
- 三种方式实现网页二级菜单
- 基于STC8G2K64S4单片机使用幻尔舵机控制板