截至12月6日,世界杯无障碍字幕直播间已累计观看超1800万,多次占据热榜前列……但TA带来的远不止这些。

“过去觉得世界杯距离我太远了,熬夜看球却听不懂、听不清只能紧紧盯着屏幕;但今年无障碍字幕直播间一出,似乎一下子就把我骨子里的体育DNA带动起来了,字幕和画面同时播放,那感觉说身临其境也不为过,最重要的是再也不用担心跟不上、听不懂了……”

“以前观看这种节目其实我挺迷茫的,周围人都在热烈讨论,甚至到精彩处欢呼雀跃,但因为我自己的身体原因,很难融入,脱节带来的孤独感一度让我很沮丧……如今借助无障碍字幕直播间,我又找到了那份可以与朋友快乐同步的体验!”

无障碍字幕直播间展示

沉浸体验并与快乐同步,是“无障碍字幕直播间”带来的惊喜与感动;但对火山语音团队来说,做好“无障碍字幕直播间”的技术支持与保障,让精彩持续,却是前所未有的挑战。

攻克口语现象、语速语气差异化 

火山语音自研端到端流式语音识别系统

“其实语音识别本身就是一种挑战!足球比赛瞬息万变,解说下来,很多口语现象不可避免,尤其是自我修正以及语序颠倒,差异化的语速语气更是司空见惯。如果再碰上一些没有经过专业训练的解说嘉宾参与其中,识别的难度就会进一步加码。为应对这个问题,我们其实思考了很久,最终还是通过自研端到端的流式语音识别系统得到了解决。”火山语音团队表示。

据了解,火山语音团队基于RNN-T框架,通过大量训练数据的积累和持续的算法优化,自研推出的端到端的流式语音识别系统,可以有效规避传统语音识别系统中涉及的大量人工流程,例如依赖专业人员设计各种口音的发声规则等,大幅度提高口音识别的效果。当然其他中间环节的人工假设也减少了很多,比方说对于犹豫、自我修正、语序颠倒等口语现象的表达,会有更好的建模能力。

混合模型和端到端模型的对比示意图

据团队介绍,端到端识别系统的backbone结构(主干网络结构)对识别效果至关重要,所以火山语音采用了业界领先的Conformer结构,可以同时对局部信息和全局信息进行建模,识别效果较传统的CNN、LSTM和DFSMN等结构都有了大幅提升。但随之而来的Conformer的计算开销也会增加不少,因此团队又从模型角度优化了Conformer的训练和推理耗时,主要包括下采样、Attention Mask和模型压缩等方式。“首先Conformer结构的计算复杂度与输入音频的长度相关,特别是Attention计算复杂度与n的平方相关,即音频序列长度越长模型越慢,因此在整个模型的浅层,我们通过增加下采样来降低模型的序列长度;其次通过Attention Mask的方式约束Attention的范围;最后通过自研的模型压缩框架,自动对模型进行裁剪和量化,在降低计算复杂度的同时,效果基本无损。”

除了对识别准确率的要求之外,字幕的上屏速度也对观赛体验起到重要影响。火山语音团队通过在RNN-T训练过程中,对于每个字的发射延迟增加损失函数,叠加Conformer结构强大的上下文建模能力,发射延迟提升了300-400ms

“无视”背景噪声 优化术语识别  

品质字幕如此炼成

在过往的很多大型竞技比赛中,因为“遭遇”大量背景噪音,例如背景音乐以及现场欢呼声等,而带来的识别困扰,被认为是同传字幕不准的“罪魁祸首”。“赛场上经常会出现的观众呐喊声,特别容易被误识别为'嗯、啊、哈'的语气词;背景音乐和观众声则会降低解说员声音的清晰度,对识别模型造成了较大挑战。”火山语音团队提出。

针对上述问题,团队设计了一整套流程应对优化:首先需要自动化地从足球比赛音频中提取出这些噪声片段,通过在模型中显式地建模噪声, 将噪声误出字的比例下降了95%;同时通过数据增强方式提高声学模型在足球场景下的鲁棒性,即在有背景音的情况下也能清晰识别人声,实现更好的流式字幕效果。

在世界杯这样的大型赛事中,提高对相关术语的识别效果,提升同传字幕的专业度往往很关键。通常的做法是收集相关场景的语音识别训练集,但收集的过程耗费时间太长且成本较高;此外面对大量文本语料,如何利用这些纯文本来优化领域识别效果,这对于端到端的语音识别是一个业界难题。

“针对足球术语的优化,我们选择在收集的足球文本语料的基础上训练语言模型,通过语言模型干预方式提高模型在足球领域的适配性。”由于端到端模型本身也隐含语言模型信息,直接与外部语言模型进行融合,往往效果不佳。所以团队根据 RNN-T 的建模方式,通过解耦声学模型和语言模型,显式建模内部语言模型,调整内部语言模型和外部语言模型的权重,可以实现最佳的融合效果。

“对于教练与运动员人名识别难的问题,我们从足球相关语料中自动挖掘专有名词、球队和球员名称等术语,通过在解码备选中引入FST(Finite State Transducer)逻辑结构,结合'匹配走图+Backoff权重偿还'的方式对热词进行干预,有效利用该热词专项技术优化后,这些术语的召回从 64% 提升到 76%。”团队总结道。

尽管成功使用了热词干预的方式,但经过大量测试实践,火山语音团队发现,人名又是一种特殊的热词,在 RNN-T 训练平行语料中多为 OOV,采用简单的热词干预方式会存在两个问题:第一,人名中的每个单字RNN-T建模单元都是常见字,但是组合起来作为热词是OOV,这种情况下,纯热词激励权重会导致在不该出现人名的时候召回了人名,即“过召回”,再加上scale过大,导致弧上的边加分过于明显,更易过召回,这是人名重复出字的主要原因;第二,Top10备选路径里面不会出现人名,单纯通过外挂热词FST根本无法有效加分。

针对上述两个问题,团队对人名热词干预做出了两方面优化,分别是扩大FST干预备选以及对热词区分稀疏热词和普通热词,然后对两种热词分别构图,在解码逻辑区别处理。经过两项优化,人名的召回率从76%提升到84%。此外还联合火山语音音频合成团队的同学,采用TTS技术合成术语音频,并加入声学模型训练中,将这些术语的召回率进一步提高到90%,字幕效果更佳。

热词干预方案的流程示意图

如今在火山语音识别技术支持下,火山引擎语音识别产品已广泛应用于视频娱乐、办公会议、硬件交互、智能客服等诸多行业,为客户提供了优质且有前景的语音识别解决方案。近日,在火山语音识别能力的技术支持下,火山引擎语音识别产品获得了国家语音及图像识别产品质量检验检测中心(简称“AI国检中心”)颁发的语音识别增强级检验检测证书,充分表明其语音识别技术能力已达到行业领先水平。

从洗脑主题曲“下蛋歌”的魔性旋律与动作被争先效仿,到可爱吉祥物“拉伊卜”被誉为“会飞的饺子皮儿”,再到旅居中东的大熊猫四海竟然能听懂四川话,乡音未改好不欢乐……不得不说今年的卡塔尔世界杯确实贡献了很多“眼前一亮”,如今赛程已进四强争霸,想必无障碍字幕直播间还将带来更多惊喜。

超1800万累计观看,多次占据热榜前列……“无障碍字幕直播间”带来的远不止这些!相关推荐

  1. 快手资讯 | 修订快分销平台管理规范,一年拦截风险视频超20万条

    1.快手处置33个"吴勇工作室"仿冒账号 5月30日,快手发布了关于打击仿冒帐号的处罚公告,平台共处理帐号33个. 平台表示,近期通过巡查发现,在部分热点事件中,个别网友为博眼球蹭 ...

  2. 万字拆解自嗨锅:造价近百万的直播间,是单场直播GMV破100万的法门吗?

    自嗨锅抖音 自播仅一个月,就可以做到连续三场 GMV 单场破100万的成绩.自嗨锅为什么能能有这样的成绩,有哪些点对于新进入抖音电商的 食品直播策略 有借鉴意义呢?来看看自嗨锅在抖音自播方面究竟做对了 ...

  3. 国仁网络资讯:如何运营好小红书上直播间;超详细直播互动话术攻略教程。

    2020年,直播电商已经是大势所趋,各大短视频平台,内容社区也在积极布局直播业务.小红书直播经过半年的内 测之后,作为战略目标,小红书决定拿出30个亿补贴小红书直播.从一个海淘平台,到内容种草社区,再 ...

  4. 蚂蚁战配基金已售罄两只 累计关注人数超500万

    9月27日消息,根据支付宝基金界面显示的内容,蚂蚁战配基金上线两天已售罄两只,分别为鹏华创新和易方达创新. 同时,支付宝页面显示,蚂蚁战配基金累计关注人数已超500万.根据官方公布的数据显示,开卖第一 ...

  5. 深圳市区块链电子发票系统累计开票超5800万张

    8月10日,区块链电子发票迎来在深圳落地三周年.三年来,国家税务总局深圳市税务局不断深化区块链电子发票的应用推广,实现了"交易即开票.全信息上链.全流程打通",提升了税收管理服务科 ...

  6. 沪港通、深港通双向累计交易额超14万亿元人民币

    中新社北京1月21日电 中国国家外汇管理局(下称"外汇局")官网21日刊发中国央行副行长.外汇局局长潘功胜署名文章称,沪港通.深港通自开通以来,双向累计交易额已超14万亿元人民币. ...

  7. 四川川之音:抖音电商发布消费者权益保护年报:累计封禁超300万件风险商品

    2023年3月13日消息,抖音电商今日发布的<2022 抖音电商消费者权益保护年度报告>显示,882名电商作者因在直播中虚假营销受罚,消费者推荐度提升11.85%.同时,平台持续升级预售门 ...

  8. 逾百位开发者到场,超 2 万人线上观看!龙蜥社区开发者服务 devFree MeetUp 精彩回顾来啦

    春末夏初,细雨漫漫,龙蜥社区迎来了首届开发者服务平台(devFree)线下 MeetUp.此次沙龙吸引了不少来自行业头部公司.机构的代表参与主题分享,现场更是有百余位业内的专家与开源技术爱好者.工程师 ...

  9. LV也开启了直播首秀,一个小时吸引超1.5万人观看

    3月26日,LV在小红书献上了直播首秀.据悉,此次直播以LV在小红书的企业号为主体,小红书时尚博主程晓玥.演员钟楚曦作为推荐官,在LV位于上海恒隆广场的门店,为网友介绍夏日系列新品手袋和成衣. 直播中 ...

最新文章

  1. 【camera】5.相机内嵌图像处理(ISP)介绍
  2. 【LeetCode】136. Single Number 解题小结
  3. HDU - 1556 Color the ball(树状数组)
  4. mysql piress_由MySql漏洞导致电脑被入侵(特征为新增加名为piress的帐户)所想到的...
  5. gcc 编译python_4 个快速的 Python 编译器 for 2018
  6. 【车牌识别】基于模板匹配算法实现国外车牌识别附matlab源码
  7. 全国计算机等级考试——C语言二级 题库
  8. 3dmax测试软件自动关闭,3dmax软件会自动关闭解决方案
  9. 云计算就业方向及前景怎么样
  10. Linux之VNC远程桌面安装和使用
  11. 微信多开txt_微信如何多开
  12. win10图片打不开无法注册包
  13. java替换word空格,java替换word 2007字符串
  14. dev-c++为什么使用调试时提示[error]ld returned 1 exit status?
  15. 3D体验平台(3DExperience)介绍---达索系统
  16. vue-composition-api.mjs:1:7: ERROR: No matching export in “node_modules/vue/dist/vue.runtime.esm-bun
  17. [从头读历史] 第301节 山海经 其实这不是一本神话书
  18. android obb在哪,.obb是什么文件?obb文件怎么用/放在哪里
  19. PIO操作与DMA操作
  20. OpenCV入门-05读取并播放视频

热门文章

  1. 介绍三款串口监控工具:Device Monitoring Studio,portmon,Comspy
  2. golang 撤回_如何看待 go 社区部分人对 try proposal 强烈抵制,希望保留现状的态度?...
  3. python中cv2.imdecode和cv2.imencode(中文路径下图片的读取和保存)
  4. 无血清培养基的优缺点概述
  5. fseek函数有什么用?
  6. Java动态代理、CGLIB动态代理
  7. 层次分析法、数据包络分析及模糊综合评价法各自的优点,缺点,应用范围
  8. 在线看Android系统源码,那些相见恨晚的几种方案
  9. MCU-51:单片机LCD1602详解
  10. 将两个双向循环链表合并成一个双向循环链表