六间房小视频地址为js渲染的网页,爬取时需要找到真实的url地址,然后找到其规律,进行翻页爬取。
网页比较简单,代码如下:

'''六间房视频爬取'''
# 导入第三方库
import requests
import time
import os
from fake_useragent import UserAgent# 随机请求头
ua = UserAgent()# 定义一个六间房的类
class LiuJianFang():# 初始化对象def __init__(self):self.start_url = "https://v.6.cn/minivideo/getlist.php?act=recommend&page={}&pagesize=20"self.headers = {"User-Agent": ua.random}# 定义得到json文本的方法def get_json(self, url):time.sleep(1)json_text = requests.get(url, headers=self.headers).json()return json_text# 定义解析json文本和保存爬取视频的方法def paser_save_json(self, json_text):content = json_text["content"]["list"]  if not os.path.exists("六间房"):   # 创建文件夹os.mkdir("六间房")for content in content:title = content["title"].replace("*", '')   # 替换标题中的敏感文字,windows文件中的敏感文字为?* :" < > \ / |playurl = content["playurl"]    # 提取视频的地址r = requests.get(url=playurl, headers=self.headers)with open("六间房" + '/' + title + ".mp4", "wb") as f:print("正在下载:" + title)f.write(r.content)# 定义运行函数,实现主要逻辑def run(self):for i in range(10):url = self.start_url.format(i)json_text = self.get_json(url)self.paser_save_json(json_text)# 程序运行接口
if __name__ == '__main__':video_spider = LiuJianFang()video_spider.run()

python之六间房视频爬取相关推荐

  1. Python爬虫系列之抖音热门视频爬取

    Python爬虫系列之抖音热门视频爬取 主要使用requests库以及手机抓包工具去分析接口 该demo仅供参考,已经失效,需要抖音2019年5月最新所有接口请点击这里获取 抖音资源获取接口文档请点击 ...

  2. python爬虫:Selenium爬取B站视频标题、播放量、发布时间

    上次尝试了利用Ajax机制爬取B站视频播放量等数据(链接在下方),但是发现响应的JSON数据中没有发布时间的数据,这次决定用Selenium试一下. python爬虫:Ajax爬取B站视频标题.播放量 ...

  3. Python Fiddler 钉钉PC端群回放视频爬取

    Python Fiddler 钉钉PC端群回放视频爬取 钉钉群里的回放视频被群管理员设置为不能下载,可是有时候又需要这些视频可以方便传阅和打开调倍速等等,而且还可以不用再打开PC端就可以直接看到视频多 ...

  4. Python爬虫实现全自动爬取拉钩教育视频

    ps:改良之后的多线程版本在最后 背景 大饼加了不少技术交流群,之前在群里看到拉钩教育平台在做活动,花了1块钱买了套课程.比较尴尬的是大饼一般都会在上下班的路中学习下(路上时间比较久)而这个视频无法缓 ...

  5. Python 视频爬取与存储

    可以把视频存到本地,前提是有视频链接,有的还要登录,我还不会/(ㄒoㄒ)/~~. 这里爬取的是MOOC上的视频,也是我学习的地方. 将链接保存在.py文件同目录下的.txt里即可 import req ...

  6. python B站原视频爬取,最高清晰度爬取。将你喜欢的up主的视频保存下来吧。

    B站原视频爬取,我就不多说直接上代码.直接运行就好. B站是把视频和音频分开.要把2个合并起来使用.这个需要分析才能看出来.然后就是登陆这块是比较难的. import os import re imp ...

  7. 一个月入门Python爬虫,轻松爬取大规模数据

    如果你仔细观察,就不难发现,懂爬虫.学习爬虫的人越来越多,一方面,互联网可以获取的数据越来越多,另一方面,像 Python这样一个月入门Python爬虫,轻松爬的编程语言提供越来越多的优秀工具,让爬虫 ...

  8. 利用python的scrapy框架爬取google搜索结果页面内容

    scrapy google search 实验目的 爬虫实习的项目1,利用python的scrapy框架爬取google搜索结果页面内容. https://github.com/1012598167/ ...

  9. 爬虫入门实战第一站——梨视频视频爬取

    爬虫入门实战第一站--梨视频视频爬取 简介 博主最近重新开始了解爬虫,想以文字方式记录自己学习和操作的过程.本篇文章主要是使用爬虫爬取梨视频网站中的视频并下载到本地,同时将视频简介和视频网站保存在ex ...

最新文章

  1. unity 角色 动画脚本_Unity Animation --动画剪辑(外部来源的动画)
  2. LeetCode: 105. Construct Binary Tree from Preorder and Inorder Traversal
  3. C/C++中Static的作用详述
  4. 【 MATLAB 】范数的必备基础知识
  5. JAVA实现重建二叉树(《剑指offer》)
  6. Ubuntu 安装JDK8
  7. MapReduce Java API-使用Partitioner实现输出到多个文件
  8. Android中Handler消息传递机制应用之子线程不允许操作主线程的组件
  9. 电厂运维的cis数据_变配电智能化运维作用和优点,智慧供配电物联网
  10. readmemh函数引用的txt格式_verilog的系统函数$readmemh的使用
  11. mysql ibtmp1 太大_mysql5.7 ibtmp1文件过大
  12. Java 密码扩展无限制权限策略文件[转]
  13. 群体智能优化算法之狩猎搜索(Hunting Search,Hus)
  14. (转)DeepMind 的下一场博弈:用机器学习颠覆资产管理?
  15. dosbox下载并配置masm环境变量的方法
  16. aspen中再沸器模拟_aspen换热器的模拟计算
  17. 软体机器人与类脑智能机器人
  18. 64位电脑安装32位系统不能引导启动
  19. WIN10系统如何取消右下角的通知菜单,通知图标
  20. 牛客在线编程101-93 盛水最多的容器

热门文章

  1. 关于组件如何获得焦点问题
  2. 【PTA】中M22春C、Java入门练习7-20 简单计算器
  3. python类中方法调用自己类的方法_python 类中方法总结 --- 实例方法、类方法、静态方法...
  4. 马蹄疾 | 2018(农历年)封山之作,和我一起嚼烂Git(两万字长文)
  5. Audio:喇叭的碧海潮生曲
  6. 日全食--21世纪最大规模的日全食
  7. WORD能打印 EXCEL却 找不到打印机
  8. submine改编码_字幕软件Aegisub ASS代码使用指南
  9. Windows共享文件夹设置
  10. 【敏感词检测】用DFA构建字典树完成敏感词检测任务