Speach Recongition

  • Speach Recongition
    • LAS
    • RNN-T,RNA
    • 穷举alignment
    • 总结

Speach Recongition

文章中所用图片皆来自于李宏毅老师课程ppt

token(符号):包括单词和标点
由于语音是连续的,中文的话,一个“语”,他的语音特征可以看作‘y’+‘u’。所以语音的维度往往大于文字的维度。

  • phoneme(相当于每一个发音的单位)
  • graphme(比phone更小的一个单位,且收语言影响较大)
  • morphome(最小的一个单位,和二进制较接近)

#Seq-to-seq

LAS


listen需要对数据进行一个attention和remove

Encoder可以用RNN网络

由于是语音,所以特征是连续性的


Encoder部分将输入的音频提取了特征,然后将其转换成词向量特征
Decoder部分将Encoder的输出作为他的输入,用了一个单向的训练网络,来做字母预测
工作流程:
1.将语音信号的特征输入到双向RNN中(encoder部分,即Listen)
2.做attention,在不同的时刻关注输入的不同部分(decoder部分)
3.解码

LAS模型局限性:
LAS需要读完所有的句子以后再输出,不能做到同步输出
attention机制需要巨大的计算量
输入的长度对模型效果影响较大

##ctc

容易看到ctc模型的token–>单字的识别是一个独立的状态,但是按照我们正常的思维,我们说话的前文是和后文有关系的,这也就导致了ctc识别能力不是太好

ctc模型可以做到online,改进点:

  1. encoder采用单向的模型,双向模型需要整个声音都输入进来,但是单向是不需要的
  2. 声音转token的时候,我们的1划分单位很小,又因为此时是单向的网络,所以这个时候可能每一个单位并不能产生一个token,此时我们引入==

    李宏毅language课程Speach Recongition相关推荐

    1. 李宏毅机器学习课程-Transfer Learning

      深度学习 -> 强化学习 ->迁移学习(杨强教授报告) 李宏毅机器学习课程-Transfer Learning 迁移学习-吴恩达 freeze 待处理的 理解深层神经网络中的迁移学习及Te ...

    2. 李宏毅机器学习课程12~~~半监督学习

      Semi-supervised Learning The distribution of the unlabeled data tell us something. Usually with some ...

    3. 李宏毅机器学习课程4~~~分类:概率生成模型

      分类问题用回归来解决? 当有右图所示的点时,这些点会大幅改变分类线的位置.这时候就会导致整体的回归结果变差.当把多分类当成回归问题,类别分别为1,2,3,4--,因为回归的问题是预测具体的值,这样定义 ...

    4. 李宏毅机器学习课程---2、Regression - Case Study

      李宏毅机器学习课程---2.Regression - Case Study 一.总结 一句话总结: 分类讨论可能是比较好的找最佳函数的方法:如果 有这样的因素存在的话 模型不够好,可能是因素没有找全 ...

    5. 台大李宏毅机器学习课程

      [机器学习入门] 台大李宏毅机器学习课程,转载来自:https://blog.csdn.net/soulmeetliang/article/details/77461607 TOPIC CONTENT ...

    6. 李宏毅老师课程:Unsupervised Learning - Word Embedding

      词嵌入:word embedding Introduction Word Embedding Count based Prediction based Sharing Parameters Train ...

    7. 【必收藏】台大李宏毅老师课程 | 资源汇总、笔记总结与索引

      2020年7月20日至2020年8月18日,我刷完了台大李宏毅老师的深度学习/机器学习相关课程,我分为了 64 个大课时,记录了 64 篇笔记. 我对于李老师课程感到惊讶又欣喜: 惊讶在于,李老师能把 ...

    8. 李宏毅 Deeplearning课程学习笔记

      文章目录 Deepleaning基础学习 第1页 第2页 第3页 第4页 第5页 第6页 第7页 第8页 第9页 第10页 GAN网络学习 VAE网络学习 强化学习 第1页 第2页 第3页 第4页 学 ...

    9. 【李宏毅机器学习课程笔记】深度强化学习(五)—— Sparse Reward

      文章目录 Introduction Reward Shaping Curiosity Curriculum Learning Hierarchical Reinforcement Learning I ...

    最新文章

    1. VC:其他控件(CProgressCtrl、CScrollBar、CDateTimeCtrl、CMonthCalCtrl)
    2. 织梦dedecms search.php注入漏洞exp,DedeCms V57 plus/search.php 文件SQL注射0day漏洞
    3. css隐藏元素的几种方法与区别
    4. Cycle-1(循环)
    5. Android 系统(227)---Android屏幕截图
    6. date命令使用文档.txt
    7. 自治系统间的路由协议--BGP详细介绍
    8. 浅谈JAVA项目开发
    9. 微信背后的产品观,确实厉害!
    10. 4G-LTE技术总结
    11. java毕业设计和毕业论文怎么写,答辩流程是怎样的?
    12. ABB控制器800模块AC800F/PM802F
    13. pc计算机shift,电脑上的shift键怎么读?shift表示什么意思?
    14. SpringBoot工程使用shiro 进行MD5加密
    15. 手机屏分几种?什么叫水滴屏、刘海屏、瀑布屏、全面屏?
    16. selenium下Edge()配置错误问题
    17. 1087 花括号展开
    18. buildroot使用详解
    19. Debian各个版本下载地址
    20. 生活是一种态度,得失是一种心境

    热门文章

    1. 使用PHP提取视频网站页面中的FLASH地址
    2. 论文阅读:高炉炼铁工序入炉焦比预测的研究
    3. gta5怎么设置画质最好_GTA5:如何让你的游戏画质更好,游戏更顺手,一波设置教给大家!...
    4. 安全生产月知识竞赛——新安法知多少
    5. matlab求解振动学问题,振动力学基础与MATLAB应用
    6. C语言学生管理系统项目
    7. 【深入UCSC Genome Brower】他山之石
    8. 轻量化Json开源格式化工具-JSON Formatter
    9. 1197: 考试排名(一)(结构体专题)
    10. macOS系统和mac装Windows系统开启虚拟化