最近因为学校上网课,需要做笔记和写电子作业,这作业(ಥ_ಥ) 一句句的字幕转文字工作量大还感觉浪费时间,于是到处查找了博主的一些帖子,学习经验,尝试成功,分享给大家(✪ω✪)

1 字幕获取

①首先,打开你需要进行操作的视频(只能是有字幕的才可以提取字幕),如
https://www.icourse163.org/learn/WHU-1001717004?tid=1450259448#/learn/content?type=detail&id=1214521515&sm=1
②在视频页面按F12键,然后点击network,接着按ctrl+F会出来搜索框,然后在当前页面按F5刷新该页面(也可以点击浏览器的刷新按钮)

③在搜索框中输入:downloadVideoSrt.htm,进行搜索,然后双击搜索到的链接,右边会显示一条黄色代码,复制代码中url后的地址到浏览器中即可下载该视频的字幕文件,一般为txt文件。

2字幕处理

字幕文件默认命名videoSrt,内容如图
由图片我们可以明显看到我们不需要的是空行,序号1、2…和时间,
所以去掉这些只留下文字。
代码分享:
21是下载下来的字幕文件的重命名,2-1是处理后文件名字,可以对应修改。

# coding = utf-8
import re
def clearBlankLine():file1 = open('21.txt', 'r', encoding='utf-8') # 打开要处理的文件file2 = open('2-1.txt', 'w', encoding='utf-8') # 生成处理后文件line = file1.readline()fileContent = ""while(line):##一行行循环处理try:    # 如果本行只有数字,则跳过本行,继续处理一下行int(line)line = file1.readline()continue##跳出本次循环except ValueError:passline = re.sub(r'\d{2}:\d{2}:\d{2},\d+', '', line)# line= re.sub(r'\d+\n', '', line)line = line.replace("-->", "").replace("\n", "")##字符替换fileContent = fileContent + lineline = file1.readline()resultContent =fileContent + "\n\n"print(resultContent)file2.write(resultContent)file1.close()file2.close()
if __name__ == '__main__':clearBlankLine()

结果如图:

处理前与处理后对比:

对于文字格式没有首行缩进和段落回车啊,只能人为处理啦
有遇到问题的小伙伴们也可以评论交流~
学习及灵感结合参考文献:
利用python去除txt文件里的空行 - 简书 https://www.jianshu.com/p/85b0d3891f00
中国大学MOOC 视频字幕获取方法_网络_weixin_33281070的博客-CSDN博客 https://blog.csdn.net/weixin_33281070/article/details/80889984?depth_1-utm_source=distribute.pc_relevant.none-task&utm_source=distribute.pc_relevant.none-task
中国大学MOOC 视频字幕获取及处理方法_网络_晓华的博客-CSDN博客 https://blog.csdn.net/sinat_29694963/article/details/100101435?utm_source=app

视频字幕获取及处理方法(以中国大学MOOC视频为例 )相关推荐

  1. 中国大学MOOC视频字幕下载2.0(2020.08.05更新)

    下载中国大学MOOC课程视频的字幕 首先视频本身要自带字幕,不然没有这个文件 浏览器最好选择Google Chrome,我是在这个浏览器上进行的操作 距上次写这篇文章过去了一年时间,网页的逻辑稍有改变 ...

  2. 中国大学MOOC慕课视频字幕获取方法

    中国大学MOOC慕课视频字幕获取方法 进入"中国大学MOOC"app观看需要下载字幕的视频 进入文件管理,按照以下路径找到字幕文件 以上来自一个被mooc笔记困扰的大学生探寻到的方 ...

  3. 怎样获取中国大学MOOC字幕 并制作笔记/可搜索的文档

    声明 本文中所涉及的图片以及其他材料内容,均为相关MOOC字幕获取过程当中的操作截图或代码示例,不代表个人的立场.观点.本文的核心内容是技术操作的相关说明. 求求管理员别卡我了,期末季好不容易写了一篇 ...

  4. 解决中国大学MOOC遮挡字幕问题

    解决中国大学MOOC遮挡字幕问题 方案1 这里采用一个简单有效的方法,运用css3的opacity属性,设置 div 元素的不透明级别.找到 <div class="u-edu-h5p ...

  5. 史上最细,Charles抓包工具的基本配置、查找接口的方法、爬取中国大学Mooc整门课程

    今天给大家分享Charles这个软件,讲解基本配置和接口查询操作,最后用一个中国大学mooc的示例来展示Charles在Windows端的用法.内容丰富,技术要点详细,站里面搜索中国大学MOOC爬虫的 ...

  6. 自动爬取中国大学mooc的pdf文档

    由于中国大学mooc里课程的pdf文档不方便下载,因此这里敲一个能自动下载课程里所有pdf的代码: 窗体代码: from tkinter import * from tkinter.filedialo ...

  7. 中国大学MOOC“Python程序设计基础”第6次开课时间

    推荐图书: <Python程序设计基础(第2版)>,ISBN:9787302490562,董付国,清华大学出版社,第20次印刷,清华大学出版社2019.2020.2021年度畅销图书,山东 ...

  8. 中国大学MOOC“Python程序设计基础”第4次开课

    推荐图书: <Python程序设计基础(第2版)>,ISBN:9787302490562,董付国,清华大学出版社,第19次印刷,清华大学出版社2019.2020年度畅销图书,山东省高等教育 ...

  9. 中国大学 MOOC Android 性能优化:冷启动优化总结

    联系我们: 有道技术团队助手:ydtech01 / 邮箱:ydtech@rd.netease.com 本文的重点在于如何定量的排查冷启动过程中的耗时操作,并提供对应的优化思路和实践方法总结.同时文本涉 ...

最新文章

  1. 服务的实例已在运行中_亚马逊首次把macOS引入云服务
  2. boost:is_straight_line_drawing用法的测试程序
  3. hdu 6406(思路+数据结构)
  4. 中国第一批写java的人_中国java开源界最可爱的人们
  5. OJ1033: 五级制成绩
  6. cocos2dx 圆盘抽奖_【cocos2dx 3.3 lua】06 抽奖转盘效果
  7. 源于零售业,如何赋能零售业?亚马逊云科技再发布四项新服务
  8. easyui关闭dialog后刷新父页面_两种方法WordPress批量打开、关闭文章评论功能
  9. [转载] Java——System.exit()用法及个人理解
  10. ACS与目录服务器进行用户身份控制管理
  11. 一文了解attention
  12. JavaNIO读取文件
  13. C盘压缩,电脑无法正常启动的解决方法?
  14. pip安装pytorch清华_镜像安装pytorch的简便方法总结
  15. DDSM数据处理之PngWithOverlay 框出病灶区域
  16. 凡拓数字通过注册:年营收7亿 伍穗颖夫妇控制43%股权
  17. ISO/IEC 29134
  18. Postgresql数组操作符及数组函数
  19. 在win2008中配置ServU
  20. BZOJ - 4810 [Ynoi2017]由乃的玉米田 莫队算法 + bitset 大暴力

热门文章

  1. 【从零单排之微软面试100题系列】09二叉查找树的后序遍历
  2. 电脑问题:浏览器打不开网页,但是微信QQ等其他软件都可以联网正常运行
  3. notepad++在行首行尾添加字符
  4. 给to B行业松松土,群晖科技的数据银行将功不可没
  5. 浅谈性能测试整体认知(2020)
  6. 树莓派学习笔记——yeelink 远程控制LED
  7. WebServer代码解读(3)【最小堆定时器与队列】
  8. 手机归属地信息查询接口
  9. 【技法操作】PS制作计算器图标,UI设计教程
  10. 推荐6 款超实用app软件工具,值得收藏!