代码目录:
~/refer_code/speech-demo/rest-api-asr/python/audio/
~/my_code/video2txt

grep_and_wget.sh

#!/bin/bash
# source activate py35for url in $(cat ./data/videourl.txt | grep -o "http.*mp4")
do
wget -P ./data/video/ -nc $url
python test.py $url
# https://blog.csdn.net/watfe/article/details/80284242
file="./data/audio/yo.txt"
if [ -f "$file" ]; thenecho -e "\n\n"$url | cat - "$file" >> result.txt
firm ./data/audio/*
#break
done

main.py

# -*- coding: utf-8 -*-
"""
Created on Sun Mar 17 09:12:27 2019
@author: cindyyao
"""from pydub import AudioSegment
import sys
import os
from pydub.silence import split_on_silence
from aip import AipSpeech#百度验证部分
APP_ID = '19276173'
API_KEY = 'Se9UYG8D9LBauEQ3QwvX4zmG'
SECRET_KEY = '3uZGWr2sISeOnsGKKHsccWAb6VzIuRCt'
client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)video_name = sys.argv[1].split('/')[-1]
#视频转音频
AudioSegment.from_file('./data/video/'+video_name).export('./data/audio/test.wav', format='wav')#读取音频 预处理
sound=AudioSegment.from_wav('./data/audio/test.wav')
sound=sound.set_frame_rate(16000)
sound=sound.set_channels(1)#切割音频
pieces=split_on_silence(sound,min_silence_len=700,silence_thresh=-70)#silence_thresh=-32
silent = AudioSegment.silent(duration=1000)#将音频转换为wav
def gotwave(audio):new = AudioSegment.empty()for inx,val in enumerate(audio):new=val+silentnew.export('./data/audio/%d.wav' % inx,format='wav')    #毫秒换算 根据需要只到分
def ms2s(ms):mspart=ms%1000mspart=str(mspart).zfill(3)spart=(ms//1000)%60spart=str(spart).zfill(2)mpart=(ms//1000)//60mpart=str(mpart).zfill(2)#srt的时间格式stype="00:"+mpart+":"+spart+","+mspartreturn stype
#读取切割后的文件
def get_file_content(filePath):with open(filePath, 'rb') as fp:return fp.read()#语音识别
def audio2text(wavsample):rejson=client.asr(wavsample, 'wav', 16000, {'dev_pid': 1537,})if (rejson['err_no']==0):result=rejson['result'][0]else:result="erro"+str(rejson['err_no'])   return result#输出字幕
def text2str(inx,text):strtext=str(inx)+'\n --> \n'+text+'\n'+'\n'return strtext#读写文件
def strtxt(text):with open('./data/audio/yo.txt','a', encoding='utf-8') as fp:fp.write(text)fp.close()#main
if __name__ == '__main__':gotwave(pieces)for inx,val in enumerate(pieces):wav=get_file_content('./data/audio/%d.wav' % inx)text=audio2text(wav)#text2=text2str(inx,text)strtxt(text)print(str(round((inx/len(pieces))*100))+'%')

https://zhang0peter.com/2020/02/03/free-vedio-to-text-and-audio-to-text/
https://jianwai.netease.com/index/0 网易
https://www.jianshu.com/p/190ba2af8046 百度
百度官方代码示例 speech-demo
阿里接口API
https://help.aliyun.com/document_detail/90727.html?spm=a2c4g.11186623.6.581.49e854dbSNPIa1
https://www.cnblogs.com/ghq120/p/9063287.html

开源 https://cloud.tencent.com/developer/news/407877

视频转音频
利用pydub和baidu语音api实现自动添加字幕 pydub的中文文档
https://blog.csdn.net/lly1122334/article/details/90283655
http://www.360doc.com/content/19/0812/12/360939_854405435.shtml
https://cloud.tencent.com/developer/article/1555802

爬取网络视频并自动转换成文字相关推荐

  1. 爬取网络视频和小说资源

    一.视频部分的爬取 1.如果对视频有关注的同学就会发现网络上的视频一般有第三方小站的视频,采集站现成的资源,一些解析接口(解析官网的链接,包括免费和收费的接口),还有就是大站的官网视频.所以我们有几个 ...

  2. 计算机声音怎么转换,怎么把视频里的声音转换成文字?讯飞听见帮你搞定

    之前刚做自媒体视频博主时,做视频最痛苦的并不是拍和剪,而是把视频里的声音转成文字,如果是十几二十秒的视频还好,几分钟就能打好文字,可是碰到要做vlog或者其他一些比较长的视频可就愁了,不仅要重新回顾一 ...

  3. 视频怎么转换成文字?这里有视频转文字软件分享

    在如今数字化信息时代,人们越来越依赖于多媒体信息.视频作为一种高质量.视觉和听觉相结合的媒介,被广泛应用于社交媒体.新闻报道.学习教育等多个领域.然而,在处理视频信息时,我们可能遭遇到一个问题,即视频 ...

  4. 记一次失败的《将视频中的音频转换成文字》的经历

    视频中的音频如何转换成文字 前言 前段时间我打算做B站林超的视频笔记,突然想到我是否可以用工具将视频的音频转换成文字,或者将视频中的字幕用OCR转化为文字.这样我就不要干巴巴敲内容了.不过因为林超的视 ...

  5. python网络爬虫爬取视频_Python网络爬虫——爬取小视频网站源视频!自己偷偷看哦!...

    学习前提1.了解python基础语法 2.了解re.selenium.BeautifulSoup.os.requests等python第三方库 1.引入库 爬取网站视频需要引入的第三方库: impor ...

  6. python3下载网页视频_Python网络爬虫——爬取小视频网站源视频!自己偷偷看哦!...

    学习前提 1.了解python基础语法 2.了解re.selenium.BeautifulSoup.os.requests等python第三方库 1.引入库 PS:如有需要Python学习资料的小伙伴 ...

  7. Python网络爬虫——爬取小视频网站源视频!自己偷偷看哦!

    学习前提 1.了解python基础语法 2.了解re.selenium.BeautifulSoup.os.requests等python第三方库 1.引入库 PS:如有需要Python学习资料的小伙伴 ...

  8. 爬取某视频网站电影,仅参考学习

    提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档 文章目录 前言 一.爬取思路 爬取使用到的第三方库和技术知识: 将对应步骤进行分析 1. 找到网页首页,输入相关的关键字进行搜索 为了 ...

  9. python 爬视频下载_Python爬虫进阶之爬取某视频并下载的实现

    这篇文章我们来讲一下在网站建设中,Python爬虫进阶之爬取某视频并下载的实现.本文对大家进行网站开发设计工作或者学习都有一定帮助,下面让我们进入正文. 这几天在家闲得无聊,意外的挖掘到了一个资源网站 ...

最新文章

  1. 写那么多年Java,还不知道啥是Java agent 的必须看一下!
  2. 重新编译php又出错了。undefined reference to `php_xx
  3. hihoCoder 第136周 优化延迟(二分答案+手写堆)
  4. 【Kotlin】Kotlin enum 枚举类 ( 常用用法 | 初始化成员变量 | 实现抽象方法 | 实现接口 | 获取名称和位置索引 | 调用枚举常量方法 )
  5. 【控制】《多智能体系统的协同群集运动控制》陈杰老师-第8章-高阶非线性多智能体分布式自适应鲁棒控制
  6. JavaScrit学习笔记(1)
  7. python中文乱码 def decode-python处理一些乱码的中文文本时decode('utf-8')报错的处理...
  8. 10月数据库排行:Microsoft SQL Server分数增加最多
  9. mysql命令教学_mysql常用命令有什么
  10. qthread run结束了算销毁吗_Java线程的run()方法和start()方法有什么区别?
  11. Java学习笔记(13)——Java注释
  12. linux下svn命令
  13. javascript数据结构与算法 --- 高级排序算法
  14. JavaScript的Array对象使用(1)
  15. Trie图的学习过程
  16. Javascript使用turndown 将html 转为md
  17. Windows10下载安装docker
  18. 大文件MD5计算 C语言 (从OpenSSL库中分离算法:三)
  19. Java微信公众号高级 微信墙,JAVA折腾微信公众平台(Token验证)
  20. mysql的binlog太大太多占用大量磁盘的解决

热门文章

  1. 万豪将在武汉远洋里建奢华五星酒店;Cook’s Club全球首家全套房酒店落户桂林 | 中国酒店周刊...
  2. 人工智能微信小程序之识别图片上的文字并提取出来(附源码)
  3. Android中高级面试必知必会,附小技巧
  4. 《如何阅读一本书》读后感-1
  5. 图数据库JanusGraph的QuickStart案例“众神之图”(本地启动)
  6. IOS 辅助工具Reveal
  7. OLED显示模块的电路连接和驱动(树莓派)
  8. list集合定义、初始化和赋值时,list值的变化:(未定义、null和不为空)
  9. 网络安全学习:渗透测试钓鱼案例,夯实基础
  10. Unity 2D游戏:Rigidbody 2D(2D刚体)