最近追剧时发现找资源挺繁琐的,网页切换来切换去耗时也多,所以就想写个脚本代替。于是今下午花了点时间,先对人人影视进行了资源爬取。

抓包分析

搜索页面

打开工作台,选择NETWORK,刷新之后,如图:

图中指出的就是搜索接口‘ http ://www.zimuzu.tv/search/index?keyword=西部世界&search_type=resource ’

就两参数:keywd和search_type(搜索类型)

影视资源页面

点进西部世界的资源面,我们接着要获取什么呢?当然是下载链接了。

没错,就是蓝色的资源下载页,再次抓包分析。

没错就是图中箭头所指的tv,这就是接口,

看他的返回值,是一个类似json格式的数据,但不规范。如图:

把鼠标移到跳转下载链接上,发现是http ://zmz003.com/v5ta03 ,搜索一下 v5ta03 ,就能找到了。如图:

5.22更新完善

今天使用时,发现报了错,有些资源抓取不到。再次抓包分析后,发现资源分为两类:电视剧、电影。

电影的接口是 movie,类似:

获取百度云,电驴等连接

接下来就简单了,静态页面,有点经验就OK的。如图:

代码实现

所需第三方库

import requests

from lxml import html

import re

import json

搜索页面

#获取搜索页面资源

def get_html(keywd,url):

param={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0',

}#cookie相带就带

Url=url%keywd

html=requests.get(Url,params=param).content.decode('utf8')

return html

5.22更新解析搜索页链接

def get_movielink(text):

tree=html.fromstring(text)

ctree = tree.xpath('//div[@class="clearfix search-item"]')

link=[]

for item in ctree:

print(item.xpath('em/text()')[0],item.xpath('div[2]/div/a/strong/text()')[0],':',item.xpath('div[2]/div/a/@href')[0])

link.append((item.xpath('div[2]/div/a/@href')[0],item.xpath('em/text()')[0]))

return link #元组的列表,元组第一个元素是资源类型(如电影)

获取下载页跳转链接

def get_downloadlink(link):

if type_link=='电视剧':

from_url='http://www.zimuzu.tv/resource/index_json/rid/%s/channel/tv'%link.split('/')[-1]

else:

from_url='http://www.zimuzu.tv/resource/index_json/rid/%s/channel/movie'%link.split('/')[-1]

param = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/58.0.3029.110 Safari/537.36 SE 2.X MetaSr 1.0',

#‘cookie’可以有

'Referer':'http://www.zimuzu.tv%s'%link,

}

data=requests.get(from_url,params=param).content.decode('utf8')

data=''.join(data.split('=')[1:])

print(data)

# pattern='

pattern='

ed2k解析源码php,Python爬虫:人人影视追剧脚本相关推荐

  1. Python爬虫:人人影视追剧脚本

    抓包分析 搜索页面 影视资源页面 5.22更新完善 获取百度云,电驴等连接 代码实现 所需第三方库 搜索页面 5.22更新解析搜索页链接 获取下载页跳转链接 获取下载链接 5.22更新,增加json文 ...

  2. python百度云盘搜索引擎_2016百度云网盘搜索引擎源码,附带Python爬虫+PHP网站+Xunsearch搜索引擎...

    品牌: 其他 语言: PHP 数据库: Mysql 源文件: 完全开源(含全部源文件) 授权: 免授权 规格: 整站源码 移动端: 无移动端 安装服务: 收费安装(另补差价) 操作系统: Window ...

  3. python 百度云搜索引擎入口_2016最新百度云网盘搜索引擎源码,附带Python爬虫+PHP网站+Xunsearch搜索引擎...

    源码简介 : 适用范围:百度云网盘 搜索引擎 源码,百度 搜索引擎 源码,网盘搜索 爬虫 源码 演示地址:(以截图为准) 运行环境:PHP.MYSQL 其他说明:分享的是一款 搜索引擎 源码,百度云盘 ...

  4. 网盘搜索引擎php源码,2016最新百度云网盘搜索引擎源码,附带Python爬虫+PHP网站+Xunsearch搜索引擎...

    源码简介 : 适用范围:百度云网盘 搜索引擎 源码,百度 搜索引擎 源码,网盘搜索 爬虫 源码 演示地址:(以截图为准) 运行环境:PHP.MYSQL 其他说明:分享的是一款 搜索引擎 源码,百度云盘 ...

  5. ed2k解析源码php,PHP源码调试分析

    前言 在看代码的时候遇到了PHP的一些函数,有些函数的特性很魔性,并不好理解. 于是尝试搭建环境对PHP源码进行调试,希望更加深入的一些理解PHP的特性. 必备安装 目标:在Windows环境下,构建 ...

  6. 豆瓣python源码_(附源码)Python爬虫之豆瓣攻坚战

    我:好无聊鸭~有没有好电影推荐一下鸭? 惨绿青年:你不是会制作python爬虫了吗?自己去豆瓣top250爬一下呗. 我:诶,居然还有这样的网站,让我赶紧去瞧瞧. 于是Paradoxical就打开了豆 ...

  7. linux python3.8源码安装_linux 下从源码安装 Python——小白踩坑记

    实验室服务器使用的系统为 Ubuntu 16.04,自带的 python 版本为 Python 2.7.12 和 Python 3.5.2,命令行下使用$ python命令来启动 python 时默认 ...

  8. rpm命令,yum命令,源码安装python

    一.rpm命令 挂载光盘文件到/media目录 进去/media目录下的Packages目录 查看系统已安装的所有rpm包 查看系统是否安装dhcp软件包 安装dhcp软件包 查看dhcp软件包的信息 ...

  9. Qt源码解析-源码解析-QVideoWidget播放手机视频旋转问题

    Qt源码解析 索引 Qt源码解析-源码解析-QVideoWidget播放手机视频旋转问题 问题描述与复现 使用手机拍摄的视频是竖屏的,上传后,使用QVideoWidget播放,变成横屏. 总结,可以让 ...

最新文章

  1. 资源|2019 年 11 月最新《TensorFlow 2.0 深度学习算法实战》中文版教材免费开源(附随书代码+pdf)...
  2. selenium webdriver之eclipse java开发环境搭建
  3. 为了测试Writer的发图功能,也为了让girls现身。
  4. Linux time ls命令:用户态内核态分别占用多长时间
  5. c++如何让程序异常以后继续执行_微信商城小程序开发首页广告如何布局?c
  6. static 与 extern 关键字描述说明
  7. android:layout 冒号,android-json解析及简单例子(补汉6个汉字字).pdf
  8. 杭电2524 矩形A + B
  9. hibernate one2one 唯一外键关联(双向关联)
  10. Script:收集数据库中用户的角色和表空间等信息
  11. 微前端完整vue实例-乾坤【qiankun】
  12. 非华为电脑安装华为电脑管家步骤
  13. web端第三方微信登录
  14. chrome导入\导出登录密码
  15. SQL查询结果四舍五入的方法
  16. linux rm-rf误删文件 思路
  17. SAP ABAP PARAMETERS定义下拉列表
  18. WinFrom内嵌chrome浏览器
  19. 推荐几个学术工具软件给大家
  20. 标书导出html,小白不会做标书?老手有这些经验要告诉你!

热门文章

  1. Java设计模式之秒杀系统
  2. IntelliJ IDEA Maven Project Dependencies红色波浪线报错
  3. 《nginx黑马教程》
  4. Linux C语言技术(5)-数组和字符串
  5. 玩转基因组浏览器之IGV进行序列比对
  6. 爬虫框架 Scrapy 教程详解
  7. Airsim Python API文档整理(1.3.1版本)
  8. 关于JS中返回上一级
  9. 解决Visual Studio Code运行python问题(环境配置)
  10. STM32:利用PWM波控制飞盈电调过程和注意事项