python语音识别whisper
一、背景
最近想提取一些视频的字幕,语音文案,研究了一波
二、whisper语音识别
Whisper 是一种通用的语音识别模型。它在不同音频的大型数据集上进行训练,也是一个多任务模型,可以执行多语言语音识别以及语音翻译和语言识别。
stable-ts在 OpenAI 的 Whisper 之上修改并添加了更大的破解代码发布,生成更准确的阶段时间切换,并在无须额外推介的情况下获得申领
- 安装
pip install openai-whisper
pip install stable-ts
Size Parameters English-only model Multilingual model Required VRAM Relative speed tiny 39 M tiny.en tiny ~1 GB ~32x base 74 M base.en base ~1 GB ~16x small 244 M small.en small ~2 GB ~6x medium 769 M medium.en medium ~5 GB ~2x large 1550 M N/A large ~10 GB 1x
三、示例
模型越大,越精确,相应话费的时间越长
自带语言识别功能,language最好加上,下面歌曲识别为英语,加后为中文
stable_whisper 是 whisper 进化版
import whisper
import stable_whisper as whisperclass WhisperTranscriber(object):def __init__(self, model_name):self.model = whisper.load_model(model_name)def whisper_transcribe(self, audio_path):audio = self.model.transcribe(audio_path, fp16=False, language='Chinese')return audio['text']if __name__ == '__main__':transcriber = WhisperTranscriber("base")text = transcriber.whisper_transcribe("257853511.mp3")print(text)
可能是伴奏声音过大,你才出来这是什么歌了吗?stable_whisper 别的用法、生成字幕
import stable_whisper
model = stable_whisper.load_model('base')
results = model.transcribe('257853511.mp3', fp16=False, language='Chinese')
stable_whisper.results_to_sentence_srt(results, 'audio')
stable_whisper.results_to_sentence_word_ass(results, 'audio.ass')
四、封装工具
buzz https://github.com/chidiwilliams/buzz
如果遇到简繁转换可以石下面
pip install zhconvzh-cn 大陆简体
zh-hant 繁體from zhconv import convert
convert('Python是一种动态的、面向对象的脚本语言', 'zh-hant')
'Python是一種動態的、面向對象的腳本語言'
python语音识别whisper相关推荐
- python语音识别终极指南
译者 | 廉洁 编辑 | 明明 出品 | AI科技大本营(公众号ID:rgznai100) [AI科技大本营导读]亚马逊的 Alexa 的巨大成功已经证明:在不远的将来,实现一定程度上的语音支持将成为 ...
- python 语音识别深度学习_用Python实现语音识别的终极指南
目录语音识别的工作原理 Python语音识别软件包的选择 安装语音识别包 识别器类 使用音频文件 支持的文件类型 使用record()来捕获文件中的数据 具有偏移和持续时间的段的捕获 噪声对语音识别的 ...
- python 语音识别_带有Python的AI –语音识别
python 语音识别 带有Python的AI –语音识别 (AI with Python – Speech Recognition) In this chapter, we will learn a ...
- python语音识别的第三方库,语音识别python实战项目
怎么用python实现语音识别 . 是想语音识别的参考方法如下:1.打开文字识别软件,关闭提示窗:2.点击上面的语音识别功能:3.通过左上角的添加文件,将需要识别的语音文件添加进去:4.点击右边的开始 ...
- 基于python的语音识别系统,Python语音识别技术路线
如何用python调用百度语音识别 1.首先需要打开百度AI语音系统,开始编写代码,如图所示,编写好回车.2.然后接下来再试一下的音频,开始编写成功回车,如图所示的编写. 3.最后,查看音频c的属性, ...
- python 语音识别 windows_对Python 语音识别框架详解
如下所示: from win32com.client import constants import os import win32com.client import pythoncom speake ...
- python语音识别_Python中的语音识别-完整的入门指南
python语音识别 Welcome to The Complete Beginner's Guide to Speech Recognition in Python. 欢迎使用Python语音识别完 ...
- Python 语音识别
出品 | 悦动智能(公众号ID:aibbtcom) 遇到问题请文末留言 [悦动智能导读]亚马逊的 Alexa 的巨大成功已经证明:在不远的将来,实现一定程度上的语音支持将成为日常科技的基本要求.整合了 ...
- Python 语音识别框架
Python 语音识别框架 from win32com.client import constants import os import win32com.client import pythonco ...
最新文章
- MTK 修改默认Text-to-speech Patch
- 中dubbo所需要的依赖_Dubbo介绍、dubbo架构图、dubbo运行和执行流程、dubbo支持的协议以及支持的注册中心...
- JSP URL重写-urlrewrite
- PAT_B_1025_Java(22分)
- spring RestTemplate用法详解
- appium常用参数(一)
- BZOJ_1029_[JSOI2007]_建筑抢修_(贪心+优先队列)
- Kate:Linux下自动检测文件编码的编辑器
- Error : Failed to get convolution algorithm. This is probably because cuDNN failed to initialize, so
- selenium 下载webdriver浏览器驱动
- GET和POST 区别
- 控制系统设计专题(三)——自抗扰控制算法(下)
- 接口文档要写在概要设计里吗_概要设计报告怎么写
- python中三角函数计算
- Android源码编译 首发ViVo Xplay X510w 2.14.8 完美root/美颜相机/状态栏美化/支持官方OTA/纯净,稳定ROM
- cubemx配置时调试SYS显示警报
- clickhouse - 第三章:内置对象 之 第二节:table表操作 - 创建表与删除表
- 【案例分析-初探】美国有多少家加油站?
- 计算机网络期末复习提纲,湖南科技大学《计算机网络微课堂》课题笔记
- 2020 第三届安洵杯 MISC Writeup
热门文章
- windows远程桌面无法连接,出现“这可能是由于CredSSP加密数据库修正问题”解决方案
- EFM32例程——DMA
- 金蝶云·星空——应付暂估冲回模式下存货对账
- 十年来最傻冒的一件事
- 使用Tile创建的.tmx在cocos2d-x文件创建地图场景和精灵对象
- 法规标准-GB/T 20608标准解读(2006版)
- 中彩室体彩排列5中奖王 v2.01 下载
- python视频处理加速的库_Python调用ffmpeg开源视频处理库,批量处理视频
- 关于python浮点数类型错误的是_关于Python语言的浮点数类型,以下选项中描述错误的是...
- bootstrap中datetimepicker显示1899问题