环境:python 2.7

创建scrapy项目过程可见本人博客其他文章,这里不再赘述

直接上代码

主要代码

# -*- coding: utf-8 -*-
import scrapyclass DyttSpider(scrapy.Spider):name = 'dytt'allowed_domains = ['ygdy8.net']start_urls = ['http://www.ygdy8.net/html/gndy/dyzz/index.html']def parse(self, response):#print '***********>',response#extract_first('默认值')取出列表第一个元素,为空返回默认值title=response.xpath('//title/text()').extract()[0]#print titlehrefs = response.xpath('//a[@class="ulink"]/@href')# for循环取出所有的href值#for href in hrefs:#print hreftotal_page = response.xpath('//select[@name="sldd"]/option[last()]/text()').extract_first('0')#print total_pagefor x in range(2, int(total_page) + 1):#print '正在爬取第%s页数据,请稍后....' % x# 根据x的值,拼接完整页面url地址url = 'http://www.ygdy8.net/html/gndy/dyzz/list_23_%s.html' %x#和return类似,不会结束函数的执行#返回一个请求对象yield scrapy.Request(url)

Scrapy电影天堂最新电影信息爬取相关推荐

  1. 爬取电影天堂最新电影(xpath结合lxml)

    完整代码 import requests from lxml import etree from openpyxl import WorkbookBASEURL='https://www.dytt8. ...

  2. 爬取电影天堂最新电影的名称和下载链接

    此次的目标是爬取电影天堂最新200页的最新电影的电影名称和下载链接,电影的下载链接在二级页面,所以需要先匹配一级页面的所有链接,然后逐个请求二级页面,代码如下: """爬 ...

  3. 【宅男宅女们的福音】电影天堂最新电影爬取及搜索脚本

    多线程电影天堂最新资源爬取脚本.电影搜索脚本 PS:方便大家使用写到了HTML中生成表格. 线程可以在脚本里直接改,测试线程为30时IP可能会被限制访问.[阳光电影是电影天堂的马甲] 环境: Pyth ...

  4. Python 利用requests+BeautifulSoup4编写原生爬虫,爬取电影天堂最新电影,并打造最新电影下载及查询器

    可能有许多人有这样的一种烦恼,当想要查看最近更新的电影时,不得不打开电影天堂的官网进行查询(当然如果你习惯用电影天堂下载电影的话/微笑),当点击了解电影详情的时候,网页往往就切换到了广告页面,很烦有没 ...

  5. 人生苦短,用Python爬取迅雷电影天堂最新电影ed2k

    第一步仍然是创建scrapy项目与spider文件 切换到工作目录两条命令依次输入 scrapy startproject xunleidianying scrapy genspider xunlei ...

  6. python下载电影天堂_【PY】没有电影看?来教你用Python爬取电影天堂最新电影!...

    项目开始 第一步仍然是创建scrapy项目与spider文件 切换到工作目录两条命令依次输入 scrapy startproject xunleidianying scrapy genspider x ...

  7. python3 爬取电影天堂最新电影

    ''' 作业 爬去dytt 2019新片精品 -> 把所有电影的名字, 主演, 下载链接. 放在一个json文件里 {{"main_people": ["井柏然&q ...

  8. 爬虫python下载电影_python爬虫抓取电影天堂最新电影

    该小脚本实现对电影天堂网站的最新电影查找.from bs4 import BeautifulSoup import urllib import re url= 'http://www.ygdy8.ne ...

  9. python实现电影天堂种子磁力的爬取

    import requests,redef getdetail(url):response = requests.get(url)#dytt的编码为gbk非utf-8html = response.c ...

最新文章

  1. JavaScript之图片的无缝滚动
  2. 服务器mysql数据库安装教程视频教程_MySQL数据库管理系统安装实际操作_MySQL教程视频 - 动力节点...
  3. Variant 与 内存泄露
  4. python画tan_Python入门之三角函数tan()函数实例详解
  5. Python全栈开发:web框架们
  6. opencv roberts算子_图像之HOG特征描述算子-行人检测
  7. 22. PE结构-PE详解之输入表(导入表)、屠龙刀W32Dasm(静态)、LordPE(动态)工具入门(查找dll、调用函数)
  8. es6 __proto__属性,Object.setPrototypeOf(),Object.getPrototypeOf()
  9. 小米手机困境,米粉伤心,黄牛伤钱
  10. Python高速缓存和会话库——Beaker
  11. 深入理解Amazon Alexa Skill(一)
  12. 第三方登录数据库用户表结构设计
  13. U盘内文件变为快捷方式怎么办?【一招解决】
  14. HDMI EDID概念梳理
  15. 程序员需知的11个在线教程网站,建议收藏!
  16. 初出茅庐的小李第63博客之FastLED库的使用
  17. 读《与赛博空间共存》
  18. 赛扬处理器_首批15瓦四核处理器即将成为历史:英特尔宣布停产4个型号
  19. 三种方式实现网页二级菜单
  20. 基于STC8G2K64S4单片机使用幻尔舵机控制板

热门文章

  1. vba使用qq邮箱发送邮件
  2. 中国移动-北京移动2015年校招面试
  3. Html 标签中的Alt和Title
  4. 中本聪是个贪婪的矿工吗?
  5. GridView 使用方法 - 前台部分
  6. MySQL的count(1)特别慢的解决方案
  7. 2020年回顾与2021年展望
  8. 什么是SWOT分析?怎样进行SWOT分析?
  9. yii2 leftjoin问题
  10. 你有值得坚持的事么?咱一块坚持吧