明敏 发自 凹非寺
量子位 | 公众号 QbitAI

还记得冬奥会期间和朱广权battle的AI手语主播吗?

现在,这样的手语数字人不仅要在小荧屏上工作,还能到火车站、银行、医院这些公共场所上岗了。

喏,通过这样一台看似普通的机器,AI手语数字人就能实时将语音或文字转化为手语,让听障人士与窗口工作人员无障碍沟通,词准率在96%以上。

这就是百度智能云曦灵刚刚推出的AI手语一体机,它能够直接部署在各种服务窗口,成为工作人员的实时翻译官。

其背后支持平台——AI手语平台也同步发布,它能进行实时手语直播,还可搭载在各类 APP、网站、小程序中,生成手语合成视频。

在发布会现场,我就感受了一下这位AI手语主播的功底:

这手速,amazing~

线下虚拟手语翻译官来了

此次推出的AI手语一体机,共有两个型号:V3和P3。

其中,全离线一体机 V3型号支持插电即用,可实现秒级部署;

端云结合一体机 P3型号联网可用,能实现分钟级部署。

也就是说,这个一体机能够充当工作人员的翻译官,实时把信息传递给前来办理业务的听障人士。

在发布会现场,百度还透露,不只是单向将语音转化为文本,在如何将手语转化为文本或语音的问题上,百度也在积极开展研究。

而能够搞定银行、医院、火车站等场景下的手语翻译,核心技术来自百度智能云曦灵的AI手语平台

它主要包含以下4方面功能:

视频手语合成、直播手语合成、文本转手语、语音转手语。

以直播情况来举例,平台可以直接接入直播地址,读取语音后转换为手语。

当然也能读取语音进行翻译,类似于微信语音输入后转文字。

这背后的流程主要可以分为3步:

首先,要通过语音识别引擎将输入的语音或视频转换为汉语文本;

然后,翻译引擎要将其进一步转换为手语码;

最后根据手语码,数字人动作融合算法来完成最后的视频合成。

整个过程中还需要保障语音识别清晰度手语翻译准确度及精炼度手语动作流畅度

识别清晰度方面,百度使用了SMLTA语音识别算法模型

该模型是一个流式多级的截断注意力模型,它使用CTC(一种语音识别算法)的尖峰信息对连续语音流进行截断,然后在每一个截断的语音小段上进行当前建模单元的注意力建模。

也就是把原来的语音中整句Attention建模,变成了局部语音小段的Attention的建模。

最终实现了在手机端近场语音识别率98%以上的效果。

百度表示,基于百度自研的深度学习算法,还可针对诸如旅游、医院、司法等不同领域的词准率进行针对性训练,词准率可达96%。

翻译准确度及精炼度上,百度研发了首个基于神经网络的精炼度可控手语翻译模型。

这是一个能将中文文本准确翻译成手语符号的模型,并且可以在保证手势准确度的情况下,进一步缩短译文长度,让文本信息能够及时转化为手语。

为此,百度还在专业手语专家指导下建设了大规模自然手语翻译语料库,使得模型可以从真实数据中学习手语翻译知识,从而生成符合听障人群习惯的自然手语。

最后则是手语流畅度方面。

AI手语平台通过“动作融合算法”,基于《国家通用手语词典》规范精修近11000多个手语动作,让每一个动作都更接近真人手语表达。

再配合4D扫描技术训练,最终AI手语数字人口型生成准确度可达98.5%

百度介绍,只需几小时的部署,AI手语平台即可在视频、直播、文本、语音等应用场景中添加手语翻译,可搭载在各类 APP、网站、小程序中。

让特殊人群“更加平等享受资讯”

目前我国听力语言残疾人达到2780万以上,而专业的手语翻译不足1万人,巨大的需求缺口亟待补足。

尤其像在医院、车站等场景下,需要工作人员和听障人士无障碍实时沟通、准确传递信息。

或许有人想问,那用文字不就行了吗?

实际上,由于种种现实因素的制约,比起文字,手语对听障人士而言更加亲切,也能更快速地传递信息。

手语翻译对于特殊人群而言,也是一个“更加平等享受资讯”的窗口。

发布会上,百度集团副总裁吴甜表示:

人工智能呈现融合创新和降低门槛的新特点,综合运用多技术的数字人带来新体验,AI加持使数字人制作和运营成本与门槛降低,AI手语平台将让更多听障人士享受科技带来的便利。

PK朱广权的手语数字人,现在要到医院银行上岗了相关推荐

  1. 朱广权迎手语新搭档?百度智能云AI手语主播正式上岗

    近日,一则段子手朱广权与"手语主播"在线pk的视频火了,刚刚上线播放量就突破百万.视频中,朱广权用超快语速的顺口溜挑战"手语主播"的"手速" ...

  2. 一手实录公开:朱广权的AI手语搭档是怎样“养成”的?

    全年无休.业务出色.绕口令都通通接得住! 近日,一则朱广权"考验"手语主播的视频迅速爆火,视频里朱广权秉承着"地球不爆炸,我们不放假"的敬业精神,以超高速顺口溜 ...

  3. AI手语主播通过朱广权魔鬼面试,残影级手速无惧贯口,今已正式上岗助力冰雪盛会...

    本文经ai新媒体量子位(公众号 id:qbitai)授权转载,转载请联系出处 本文约3000字,建议阅读10+分钟 24小时为你提供手语解说. 什么样的手语主播能跟朱广权battle得有来有回? 话不 ...

  4. 为湖北带货,1.2亿人围观!朱广权联手李佳琦隔空直播卖出4014万

    CDA数据分析师 出品 今天我们聊聊,央视"段子手"朱广权 罗永浩在抖音直播的热度虽已褪去,4月6日晚,一场"为湖北带货"的公益直播又火了. 央视新闻的「段子手 ...

  5. 朱广权李佳琦直播掉线,1.2 亿人在线等

    作者 | 胡巍巍 出品 | 程序人生(ID:coder_life) 原来央视爸爸也有掉线的时候. 4月6日晚间,"国民段子手"朱广权连麦李佳琦,给湖北做公益带货直播. " ...

  6. 上海嘉定上线自动驾驶网约车,《央视新闻》朱广权官方种草

    内容提要:昨日上午,滴滴的自动驾驶汽车,面向上海公众开放试乘服务.用户可在「滴滴出行」App 上报名体验,真切地感受无人驾驶的快感. 原创:HyperAI超神经 关键词:滴滴 自动驾驶  路测城市 6 ...

  7. 做AI手语数字人,是让聋人用熟悉的方式去理解健听人的表达方式

    这个寒假,有一批失聪的大学生成了冬奥会的远程志愿者,他们来自天津理工大学聋人工学院.这些志愿者把电视新闻栏目的内容转换成手语顺序的文本,为冬奥会转播中需要的AI(人工智能)手语数字人提供大规模的语料支 ...

  8. 央视首位AI手语主播亮相,动作精确、实时转译,网友:能接住广权的段子么?...

    来源:量子位 气质端庄.面容姣好,手语动作精确而又连贯: 朋友们,你现在看到的这位央视主播并非真人,而是一个AI! 今天,在距离2022年北京冬奥会72天的日子,她正式亮相,成为央视新闻的一位特殊报道 ...

  9. 在手语世界里,健听人、数字人与听障人的交织

    如果没有声音,我们的世界会变成怎样的呢?没有雨落地,风吹草,鸟鸣啼:各种娱乐节目和直播也会远去:更麻烦的还在于,常规教育接受也会成为问题,读书识字可能会变成一种奢侈,网课.视频课都可能远去.这些问题对 ...

最新文章

  1. java圆周率流程图,流程图、PI图入门知识 课件.doc
  2. 无监督方法实现C++、Java、Python 代码转换,程序员:出了bug怎么办,两种语言都要看吗?...
  3. 递归实现牛顿法求整数平方根(原理: 给一个初始值(比如X1 = a/2)迭代求a的平方根,设定一个误差限,不断逼近a X1 = a/2 X2 = (X1+a/X1)/
  4. Intent、Bundle
  5. Linux C: 文件操作相关的系统调用
  6. virtualenv在Ubuntu18.10(64位)中的用法(命令和图形化建立虚拟环境)
  7. php stomp rabbitmq,docker环境下的RabbitMQ部署,Spring AMQP使用
  8. 《Java开发手册》阅读笔记(三)
  9. 【Echarts底层相关】
  10. 【Playable API】不用Animator如何播放动画?
  11. python论文参考文献名称_Word的正确打开方式(附毕业论文模板)
  12. Python实现回溯指针
  13. 已知圆上任意两点求圆心和半径_圆曲线(已知两点和半径)座标计算
  14. 条形码编码规则及标准
  15. python 东方财富接口_东方财富 股票数据接口_
  16. 0x0000006b蓝屏解决方法 - WIN7
  17. 软考中的嵌入式系统设计师为什么考的人少?
  18. 汽车控制器自研AUTOSAR开发工具链需要哪些?
  19. 乔治城大学计算机科学硕士2019,乔治城大学2019THE世界大学排名最新排名第109
  20. db2 删除索引_[收录量]史上最全的百度索引量下降原因分析及解

热门文章

  1. Spark应用程序第三方jar文件依赖解决方案
  2. 如何在github存储库中添加屏幕截图到README?
  3. 如何检查字符串是否为空?
  4. 如何实现每个周期4个FLOP的理论最大值?
  5. 了解Java中的检查与未检查异常
  6. 访问控制允许原始多个域?
  7. 使用Git将最新提交移至新分支
  8. echarts 自定义图表
  9. Native与H5交互的那些事
  10. C#的反射机制调用方法