/1 前言/

还在为在线看小视频缓存慢发愁吗?还在为想重新回味优秀作品但找不到资源而忧虑吗?莫要慌,让python来帮你解决,40行代码教你爬遍小视频网站,先批量下载后仔细观看,岂不美哉!

/2 整理思路/

这类网站一般大同小异,本文就以凤凰网新闻视频网站为例,采用倒推的方式,给大家介绍如何通过流量分析获得视频下载的url,进而批量下载。

/3 操作步骤/

/3.1 分析网站,找出网页变化规律/

1、首先找到网页,网页详情如下图所示。

2、该视频网站分为人物、娱乐、艺术等不同类型,本文以体育版块为例,下拉到底端,如下图所示。

3、根据上图的结果,我们可以发现该网站是动态网页,打开浏览器自带流量分析器,点击加载更多,找出网页变化规律,第一个就是,请求网址和返回结果如下图。标记处为页码,此时是第3页。

4、返回结果包含视频的title、网页url、guid(相当于每个视频的标志,后续有用)等信息,如下图所示。

5、每个网页里边包含24个视频,打印出来是这样的,如下图所示。

/3.2 寻找视频网页地址规律/

1、先打开流量分析器,播放视频进行抓包,找到几个mp2t文件,如下图所示。

2、它们的网址我依次找了出来,放到文本文件中存放起来,以发现它们之间的规律,如下图所示。

3、大家发现规律了吗?网址中的p26275262-102-9987636-172625参数就是视频的guid(上述已经得到),只有range_bytes参数是变化的,而且是从0到6767623,很显然这是视频的大小,而且视频是分段合成的。找到这些规律之后,接下来我们需要继续进行细挖视频地址的出处。

/3.3 寻找视频的下载原始地址/

1、先考虑一个问题,视频的地址是从哪来的呢?一般情况下,先在视频网页里看看有没有,如果没有,我们就在流量分析器里,沿着第一个分段视频往上找,肯定是有某个网址返回了这些信息,很快,我在1个vdn.apple.mpegurl文件里发现了下图这个。

2、太惊喜了,这不就是我们要找的信息么,再看看它的url参数,如下图所示。

3、上图参数看起来很多的样子,不过不用怕。还是利用老办法,先在网页里看看有没有,没有的话还在流量分析器里往上找,功夫不负有心人,我找到了下图这个。


4、它的url如下图所示。

5、仔细找找规律,我们发现唯一需要变化的就是每个视频的guid了,这个第一步已经得到了。另外,返回结果包含了上述除了vkey的所有参数,而且这个参数最长,那该怎么办呢?

6、不要慌,万一这个参数没有用呢,先把vkey去掉试一试。果不其然,果然没有什么用,现在整个过程已经捋顺了,现在可以撸代码了。

/3.4 代码实现/

1、在代码里边,设置多线程下载,如下图所示,其中页码可以自己进行修改哈。

2、解析返回参数,json格式的,使用json库进行处理,如下图所示。通过解析,我们可以得到每个视频的title、网页url、和guid。

3、模拟请求,获得除Vkey外的参数,如下图所示。

4、利用上一步中的参数,进行模拟请求,获得包含分段视频的信息,如下图所示。

5、将分段视频合并,保存在1个视频文件,并以title命名,如下图所示。

/3.5 效果呈现/

1、当程序运行之后,我们便可以看到网页中的视频哗啦哗啦的在本地文件夹中进行呈现,如下图所示。接下来,妈妈再也不用担心我喜欢的视频找不着了,真香!

当然了,如果想更加直观的话,可以在代码中加入维测信息,这个大家可以自己手动设置一下。

/4 总结/

本文主要基于Python网络爬虫,利用40行代码,针对小视频网页,进行批量获取网页视频到本地。方法简单易行,而且行之有效,欢迎大家踊跃尝试。如果想获取本文代码,请关注公众号(Python学者),在公众号后台回复“小视频”三个字,即可获取代码链接。

40行代码教你爬遍小视频网站相关推荐

  1. 40行代码教你利用Python网络爬虫批量抓取小视频

    1. 前言 还在为在线看小视频缓存慢发愁吗?还在为想重新回味优秀作品但找不到资源而忧虑吗?莫要慌,让python来帮你解决,40行代码教你爬遍小视频网站,先批量下载后仔细观看,岂不美哉! 2. 整理思 ...

  2. python爬取小视频-40行代码教你利用Python网络爬虫批量抓取小视频

    /1 前言/ 还在为在线看小视频缓存慢发愁吗?还在为想重新回味优秀作品但找不到资源而忧虑吗?莫要慌,让python来帮你解决,40行代码教你爬遍小视频网站,先批量下载后仔细观看,岂不美哉! /2 整理 ...

  3. 爬取网页数据php,不到40行代码教你如何利用php高效快速的爬取10w+网页数据

    前几天看了一下swoole,今天找到了使用场景,就简单写一个demo swoole安装教程>>之前分享过,自己去公众号找一下 本文是 php利用swoole协程启动多个子进程模式,根据服务 ...

  4. Java用20行代码实现抖音小视频批量转换为gif动态图【值得收藏】

    效果图 本功能实现需要用到第三方jar包 jave,JAVE 是java调用FFmpeg的封装工具. spring boot项目pom文件中添加以下依赖 <!-- https://mvnrepo ...

  5. python人脸识别毕业设计-Python 40行代码实现人脸识别功能

    前言 很多人都认为人脸识别是一项非常难以实现的工作,看到名字就害怕,然后心怀忐忑到网上一搜,看到网上N页的教程立马就放弃了.这些人里包括曾经的我自己.其实如果如果你不是非要深究其中的原理,只是要实现这 ...

  6. python爬虫实战:利用scrapy,短短50行代码下载整站短视频

    近日,有朋友向我求助一件小事儿,他在一个短视频app上看到一个好玩儿的段子,想下载下来,可死活找不到下载的方法.这忙我得帮,少不得就抓包分析了一下这个app,找到了视频的下载链接,帮他解决了这个小问题 ...

  7. 如何在代码中将menu隐藏_如何在40行代码中将机器学习用于光学/光子学应用

    如何在代码中将menu隐藏 In the last couple of years, Artificial intelligence is finding its use in all sorts o ...

  8. 40行代码的人脸识别实践【转】

    转自:http://blog.csdn.net/xingchenbingbuyu/article/details/68482838?ref=myrecommend 版权声明:本文为博主原创文章,转载请 ...

  9. Html5游戏开发-145行代码完成一个RPG小Demo

    lufy前辈写过<[代码艺术]17行代码的贪吃蛇小游戏>一文,忽悠了不少求知的兄弟进去阅读,阅读量当然是相当的大.今天我不仿也搞一个这样的教程,目地不在于忽悠人,而在于帮助他人. 先看de ...

最新文章

  1. CTO多要会刷脸--
  2. The requested URL /nagios/cgi-bin/statusmap.cgi was not found on this server
  3. ASP.NET MVC 拦截器(转)
  4. ndarray python 映射_NDArray — 基于Java的N维数组工具
  5. 走进我的交易室02_交易什么市场
  6. 准备将redis引入项目做消息队列使用
  7. 最容易被你忽略的Mac神级功能!Mac访达里一切皆可标记
  8. Docker入门之安装MySQL
  9. java xheditor 上传图片_xheditor上传图片的java实现
  10. 【DP之家】Ubuntu简介
  11. surface surfaceTexture
  12. Exp3 免杀原理与实践 20164302 王一帆
  13. IT前端开发和后端开发
  14. 2021.11.16【读书笔记】丨宏基因组分析流程
  15. Java——万字总结网络编程
  16. 知云文献翻译打不开_知云文献翻译 for mac v1.0.1
  17. 【opencv3】滑动条调节RGB颜色阈值并输出滑动条的值
  18. 4kw机柜无通道封闭CFD模拟分析及优化(上篇) -孙长青
  19. C++学习——g++对成员函数的undefined reference 未定义引用,但只有在编译release时才会出现。
  20. MAC格式化U盘/移动硬盘

热门文章

  1. bootstrap中col-xs-*在屏幕缩小时没起作用
  2. 上海11月计算机一级成绩查询时间,2019年11月上海软考成绩查询时间及入口
  3. 小米平板6和小米平板6Pro的区别 小米平板6和小米平板6pro参数对比
  4. 泛型及当中的T、E、?分别代表什么意思
  5. 自定义SpringBoot启动banner -- 佛祖保佑 永无BUG
  6. 计算机毕业设计Java老年人日间照料中心管理系统(源码+mysql数据库+系统+lw文档)
  7. 51单片机PCA模块配置
  8. 【web前端特效源码】使用HTML5+CSS3制作一个会动的电脑桌面+昼夜变化动画效果~~适合初学者~超简单~ |前端开发
  9. JS中2种定时器的使用及清除
  10. PHP encoder是什么意思,adobe media encoder是什么软件