WeNet 开源社区正式发布 wekws,面向产品的新一代端到端唤醒框架。该工作在西北工业大学航海学院张晓雷老师团队、西工大音频语音与语言处理研究组谢磊老师团队的支持下完成。wekws 具有如下产品优先端到端轻量级高准确率四大优点。

目前该工作已经投稿 ICASSP 2023。

  论文地址为:https://arxiv.org/pdf/2210.16743.pdf

为什么要做 wekws?

语音唤醒在日常生活领域已经有了非常广泛的应用,例如手机上的个人助手 Siri,智能音箱上的小爱同学、天猫精灵,智能汽车中的你好小迪(比亚迪)、理想同学(理想汽车)等等的场景。然而实际工业界在落地唤醒时,确有如下突出问题:

  1. 方法众多:有 HMM Filler,有 Deep KWS[1],有类端到端方法,训练损失函数上有 CE、有 CTC、有 RNN-T、也有 max-pooling 等。复杂的方法增加了大家调研、选择和学习的成本,并且部分方法训练和部署难度大。

  2. 部署的芯片和平台众多:唤醒部署的芯片和硬件平台非常的多样化,很多平台需要独立适配,工作量大、成本高,反过来又限制了唤醒进一步在更多的平台和芯片上落地。

  3. 业界缺乏一个好用的、统一的、针对语音唤醒任务的开源的框架:目前虽然部分语音工具中也支持唤醒算法,如 Kaldi、FairSeq,Honk 等,但大多数不是针对唤醒任务设计,并且庞大复杂,上手难度大,更缺乏针对唤醒任务的部署支持。

所以,我们一直在思考,有没有可能像 wenet 一样,做一个产品优先的、专而精的、小而美的、端到端的语音唤醒开源框架?wekws 就是我们给出的答案。

wekws 有哪些特点?

根据上述的问题,wekws 做了针对性的设计,最终 wekws 的方案具有如下的特点:

产品优先

在 wekws 中 1)默认采用流式的模型结构设计,并且无需依赖未来信息,从而做到实时低延迟。2) 支持从研发模型直接导出生产环境可部署的 ONNX 等方案。3) 内置提供了多种平台和芯片的支持,例如 Android、OnnxRuntime、树莓派等,未来会做进一步的快速扩展,事实上,多种平台和芯片的支持也是非常适合用开源的形式去推动,适合众人拾材火焰高的开源集市开发模式去做。

下图是 wekws 中 Runtime 的设计和规划,绿色部分为已有功能,红色部分在有序推进中。

端到端

wekws 中采用基于 max-pooling loss 的纯端到端方案,既不需要对齐信息,也无需 VAD 给出唤醒词的边界点,从而真正做到了从头到尾的端到端一体化方案。在论文中,我们的实验表明,该方案不仅简化了训练系统设计,而且可以取得更好的模型性能。下图展示了论文中使用 VAD 监督信息(vad-max/vad-mean/weakly-constraint)和 不使用 VAD 监督信息(max-pooling)的实验结果。

轻量级

如前文所述,wekws 定位语音唤醒任务,力求专而精,小而美。

高准确率

我们同时在三个数据集(Mobvoi (SLR87)/Snips/Google Speech Command (GSC))对比了 wekws 和其他工具的性能,如下列表格所示,可以看到,wekws 提供了非常有竞争力的结果。

未来

在未来,wekws 一方面会支持更多的硬件、芯片、系统、语言等平台,另一方面,也会不断探索新的多快好省的算法和系统方案。

在这个万物互联的人工智能时代,我们坚信开源会有更大的作为!道阻且长,行则将至!驽马十驾,功在不舍!

参考资料

[1]Deep KWS: https://static.googleusercontent.com/media/research.google.com/zh-CN//pubs/archive/42537.pdf

面向产品的新一代端到端唤醒框架 wekws 正式发布相关推荐

  1. 在产品中,我们常说的A端/B端/C端是什么?

    一.引言 在IT产品中,我们常常把各类型的技术系统分为A端.B端.C端,那它们到底是什么呢?又是有什么区别呢?今天小郭就带大家来仔细看看. 二.我们常说的A端/B端/C端/R端是什么? 2.1 产品分 ...

  2. Axure高保真保险行业后台管理原型+微保CRM客户管理+保险产品附加险、费率+web端企业crm后台管理原型+渠道管理、会员管理

    作品介绍:近几年保险行业进入快速发展的阶段,各类保险产品引领各类广大市场.不过也是一个具有经营风险的金融行业,业内人士认为在借助保险行业CRM客户关系管理系统可以大大的把握住客户关系,有助于保险行业的 ...

  3. NPDP产品经理小知识:端到端的流程建设与跨职能团队管理

    端到端是IT从业者们在讨论流程时经常会随口抛出来的一个名词,感觉说出来就有一种高大上的感觉.但究竟什么是端到端?端到端的流程建设与跨职能的团队管理有着怎样的关系,通过端到端的跨职能团队假设又能解决什么 ...

  4. 基于端到端深度学习方法的语音唤醒(Keyword Spotting)模型和论文

    语音唤醒,即关键词检索(keyword spotting, KWS).用语音唤醒设备,让设备由休眠状态切换至工作状态. 下面主要对基于端到端的深度学习方法的语音唤醒模型总结. 模型输入为语音,输出为各 ...

  5. 面向端到端的情感对话生成研究综述

    摘要 人机对话作为人工智能的重要研究内容,受到了学术界和工业界的广泛关注.受到深度学习在自然语言处理成功应用的启发,越来越多的神经网络模型被研究者关注.其中基于端到端的神经网络模型能够从大规模语料中学 ...

  6. 决胜B端第2版(3):都有哪些典型的B端产品?同样是B端,其实区别非常大!

    这篇文章是新书第二章的节选,这部分内容写了较长时间,对第一版书中的产品分类做了较大调整,个人对新版本的产品分类更加满意,而且我觉得新的分类很好地体现出了B端产品特性以及在商业化上的显著区别.终于把前两 ...

  7. 产品经理基础-10运营平台端产品设计(完结~撒花~)

    10运营平台端产品设计 文章目录 10运营平台端产品设计 一. 运营平台端产品功能规划 二.平台端用户管理产品设计 1.用户列表 2.用户审核 三.平台端内容管理产品设计 1.内容审核 2.分类管理 ...

  8. 产品经理如何与G端领导沟通

    从事G端产品已经一年有余,之前都是做的B端产品,自从接触G端产品后,发现做事的方式有了一些变化. 下面谈谈自己的一些沟通技巧,主要从以下几方面进行探讨. 选择合适的时间 如果找政府人员进行产品需求的调 ...

  9. 百度糯米O2O产品质量保证的自动化与端监控最佳实践

    声明:本文为CSDN原创投稿文章,未经许可,禁止任何形式的转载. 作者:孙健,百度搜索公司-高级测试开发工程师,关注于移动测试开发领域. 责编:钱曙光,关注架构和算法领域,寻求报道或者投稿请发邮件qi ...

最新文章

  1. 计算机网络实验报告建立校园网,计算机网络实验报告
  2. Docker初学1:初识Docker
  3. HDU 3282 Running Median 动态中位数,可惜数据范围太小
  4. 理解cookie和session
  5. cvtcolor python opencv_蔡徐坤教你用OpenCV实现素描效果
  6. Linux 目录配置标准:FHS
  7. 【面试 redis】【第十二篇】redis的相关面试问题【完结】
  8. 搜狗浏览器收藏夹在哪_chrome谷歌浏览器收藏夹在哪_chrome收藏夹在电脑什么位置...
  9. ubuntu openssl_在Ubuntu下安装旧版seurat
  10. android tab 选中变色,Android 底部导航栏的Tab选中不变色?
  11. 2021考研数学二汤家凤接力题典1800
  12. Python:1019 数字黑洞
  13. android系统 最新版本是多少,安卓系统最新版本是多少 Android M 最新功能
  14. 【转载】CodeWarrior IDE使用Tips-如何编译生成和调用静态库
  15. Centos7.4使用recuse模式恢复虚机mbr分区表
  16. 美翻你的朋友圈,Python生成蒙太奇马赛克图片
  17. 科林明伦杯哈尔滨理工大学第九届程序设计竞赛 H 题(dfs)
  18. GaussDB(for MySQL)近数据处理(NDP)解锁查询新姿势
  19. 各种EDA软件的PCB文件后缀名
  20. Linux 修改系统时间的两种方式

热门文章

  1. C 语言实例 - 判断元音/辅音
  2. Ubuntu 16.04 设置终端背景透明化
  3. (14)[驱动开发]配置环境 VS2019 + WDK10 写 xp驱动
  4. ESP32-IDF开发实例-非易失性存储(NVS)数据存取
  5. 你知道的企业文化理念有哪些?
  6. Ubuntu断点续存之wget
  7. 传感器系列之4.12GPS定位传感器
  8. 怎样把多个pdf合并为一份?多个pdf怎么合并成一个pdf?
  9. android 触摸屏干扰,如何解决电容触摸屏的抗干扰问题?
  10. 计算x的n次方 高效算法