百度语音识别学习笔记
本文采用百度云语音识别API接口,实现低于60s音频的语音识别,并将其写入文档txt
一、百度语音识别平台搭建(树莓派操作系统)
1、申请属于自己的百度AI开发者账号
APP_ID 、API_KEY 、SECRET_KEY
2、下载并安装SDK
采用python开发,下载python-SDK
二、关于音频转换的知识(官网介绍:语音技术 (baidu.com))
1、音频格式与编码要求:
- 支持音频格式:pcm、wav、amr、m4a
- 音频编码要求:采样率 16000、8000(仅支持普通话模型),16 bit 位深,单声道
语音技术 (baidu.com) <--有关知识参考
2、格式转换具体实操
在树莓派系统终端进行操作:(手机录音格式.m4a)
ffmpeg -y -i aidemo.m4a -acodec pcm_s16le -f s16le -ac 1 -ar 16000 16k.pcm// -acodec pcm_s16le pcm_s16le 16bits 编码器
// -f s16le 保存为16bits pcm格式
// -ac 1 单声道
// -ar 16000 16000采样率
三、测试
结果展示图:
代码:
from aip import AipSpeech
import os
#申请百度语音识别 自行填写
APP_ID = ''
API_KEY = ''
SECRET_KEY = ''client = AipSpeech(APP_ID, API_KEY, SECRET_KEY)# 读取文件
def get_file_content(filePath):with open(filePath, 'rb') as fp:return fp.read()path='/home/pi/test' #音频所在位置信息(根据实际修改)
test1 = client.asr(get_file_content(path+'/25.pcm'), 'pcm', 16000, {'dev_pid': 1536, })print(test1)
#生成文档将识别文字写入
if test1['err_msg']=='success.':s=str(test1['result'])[2:-2] #字符化并输出文字内容with open('test.txt','w') as file0:print('%s' % s,file=file0)
else:print ("错误")
百度语音识别学习笔记相关推荐
- 语音识别学习笔记(三)【动态时间归正的识别技术】
语音识别学习笔记(三)[动态时间归正的识别技术] 1.概述 在语音识别中,简单的将输入模板和参考模板进行比较存在很大的缺陷,因为语音信号具有很大的随机性,即便是同一个人在不同时刻说同一句话,也不可能 ...
- 语音识别学习笔记(二)【基于矢量量化的识别技术】
语音识别学习笔记(二)[基于矢量量化的识别技术] 概述 量化分为标量量化和矢量量化(Vector Quantization,VQ).标量量化是将采样后的信号值逐个进行量化,而适量量化是将若干个采样信 ...
- 语音识别学习笔记(一)【概述】
语音识别学习笔记(一)[概述] 概述: 1)语音识别是机器通过识别和理解过程把人类的语音信号转变成相应的文本或命令的技术. 2)集 声学.语音学.计算机.信息处理.人工智能等于一身的综合技术. 难 ...
- API接口调用里的QPS指什么?百度语音API里的QPS实例说明
QPS(query per second) 指每秒向服务发送的请求数量峰值,相当于每个API接口每秒可以允许请求的并发上限量. 举例: 百度语音 API 就有 QPS 限制. 如果你有多个客户端一起调 ...
- Python 技术篇-百度语音API鉴权认证获取Access Token实例演示
百度语音官方鉴权认证文档 下面来为大家进行鉴权认证获取Access Token的演示: 首先需要创建自己的个人语音应用,在应用列表里进行创建. 百度语音个人应用列表 然后用这个应用里的 API Key ...
- java语音开源_号外!号外!百度语音开源库更新了
[开源:ReactNative集成百度语音开源库,](CSDN-专业IT技术社区-登录)在这篇文章中作者开源了一个ReactNative集成百度语音合成的组件库,今天通过查看Github上的关于开源r ...
- 语音技术(百度语音)开发 - 第一篇
语音技术(百度语音)开发 - 第一篇 AI接入指南 短语音识别标准版.查看文档 短语音识别API文档 .调用流程.speech 参数填写.参数说明.等等 官方demo地址 创建应用.百度云平台 网上案 ...
- QT调用百度语音REST API实现语音合成
QT调用百度语音REST API实现语音合成 1.首先点击点击链接http://yuyin.baidu.com/docs/tts 点击access_token,获取access_token,里面有详细 ...
- 语音学习笔记(四)【传统声学模型】
语音学习笔记(四)[传统声学模型] 1.混合高斯模型(GMM) 当使用混合高斯随机变量的分布用于匹配语音特征时,就形成了混合高斯模型(GMM). 1.1随机变量 1)随机变量可以理解为从随机实验 ...
最新文章
- PLinq Lookup ParallelQuery
- 触摸板库tslib的编译和配置
- 北京区域赛I题,Uva7676,A Boring Problem,前缀和差分
- Linux入门笔记——cat、sort、uniq、wc、head、tail、tee
- cmake 常用命令
- 前端小demo——全选和全不选
- 常见时间复杂度及对应关系
- IDLDrawWidaget Activex
- 数据分析技术 使用SQL和EXCEL工具 第2版 pdf
- 在 iOS 客户端上通过 bitcode 为第三方库修复 bug
- 管理感悟:掌握工作的决定权
- android系统音效均衡方案
- gif怎么裁剪尺寸?一键gif裁剪工具推荐
- win7设置电脑保护眼睛颜色(终极方法,提供两种颜色选择)
- php日期格式带T,php日期格式
- js--动态生成表格
- Fabric 1.0源代码分析(22)Ledger #blkstorage(block文件存储)
- Eclipse如何安装lombok插件
- linux操作系统的关机命令
- HTML旅游网页设计制作 DW旅游网站官网滚动网页 DIV旅游风景介绍网页设计与实现...
热门文章
- Baetyl推动边云融合 点亮智能物联网
- 币圈一级市场随波逐流容易,独善其身却难
- [时间投资法]第一章-为什么高效管理时间这样难
- 杰理之涂鸦APP显示连接的设备【篇】
- 电力猫多路由,NUC黑群晖,小蚁摄像机
- python能力写进简历_自学 Python,用 django 它写了小贴吧,投简历都没有回应,是简历还是能力问题?...
- java 实现的excel数据导入及导入模板下载
- 安信可A9G-Pudding开发板 ADC功能使用及固件开发
- linux 下反斜杠路径,Linux下反斜杠号\引发的思考
- 【Spark】scala基础入门