全年无休、业务出色、绕口令都通通接得住!

近日,一则朱广权“考验”手语主播的视频迅速爆火,视频里朱广权秉承着“地球不爆炸,我们不放假”的敬业精神,以超高速顺口溜为手语主播连连抛出挑战,而“颜值、业务双在线”的手语主播也以流畅、精准的动作完美接住挑战,让朱广权都忍不住夸赞“反应很快、精彩”。

其实,广权老师的这位新搭档并不是真人,而是由百度智能云打造的首个 AI 手语主播。在即将开启的冰雪盛会中,她将为以 AI 为核,为中国2780万的听障手语使用者搭起观赛的桥梁,提供24小时不间断的手语服务,实时传递精彩纷呈的比赛资讯。

AI 手语主播

那么,手语数字人与普通数字人有什么区别?制作难点在哪?未来有哪些发展空间?

想了解手语数字人,就要先了解手语

简单来说,可以将“手语”理解为一种“小语种”,与所有的语言一样,想让更广泛的人群理解这种“语种”并且互相沟通,首先要构建一套通用的“翻译”法则。

与方言的情况类似,不同地域的手语在表达方式上存在差异。以“钱”这个词举例,有的地方手语是做捻钞票的动作,有的地方则是用拇指、食指捏成小圆圈。这就需要为手语构建如普通话一般的通用沟通标准。

同时,手语会在我们日常说话的基础上,进行语序的调整与语言的精简,比如我们说“我想回家”,手语会按照“家”、“回”、“我想”的顺序依次用三个手势进行表达。我们说“3号我要冻哭东北内蒙古地区”,在手语中则会被精简成“3号东北内蒙古”。

手语翻译也并非简单的语言翻译,动作、表情、口型三大环节一个都不能少。当一个手势代表好几个意思时,就需要表情与口型的充分配合。

举个例子:“吃饭了吗?”,这句话里“吃饭”有具体的手势动作,但“了么”如何表示?就需要配合“表情”:眼睛睁大,眉头皱一下。

这些例子也充分证明着唯有真正懂得手语,才能为数字人构建通用“翻译”法则,打造出听障手语使用者用得上、用得好、用得方便的“真·手语数字人”。

手语数字人现状:玩家很多,但缺少实干家

有了字幕,为什么还需要手语来传递信息?

在与手语老师沟通的过程中,百度智能云团队了解到,由于听觉与学习文字的关联性,导致残障人士对文字的阅读理解存在一定障碍,相比文字更能认清日常使用的手语,且手语看起来更加亲切,屏幕上的一角对他们来说就是一个“平等享受资讯的世界”。

遗憾的是,目前行业里很多看起来“眼花缭乱”、“动作智能”的手语数字人,听障手语使用者实际上是看不懂的。

一个原因是,很多厂商为了追求效率直接采用“手势汉语语料”,即忽略手语的语序调整、语言精简等特殊性,直接生硬的按照说话顺序,将每个词的手势链接,实则是一种忽视听障手语使用者沟通需求的“半吊子手语”。

更不合理的是,有些厂商为了凸显手势的流畅度,并未对手势与手势之间的链接进行针对性训练,只是对数字人的动作一味加速,生硬地将动作连接起来,“鬼畜”的手语让听障人群不得不连连摇头。

由此可见,想要打造一个高质量手语数字人,绝非原有数字人的基础上简单调整,做做加法,需要同时具备语音技术、视觉技术、自然语言处理等技术能力。

而百度作为国内唯一拥有最完整 AI 技术布局的公司,语音、视觉、NLP、知识图谱等核心技术均处于世界一流水平,这也为 AI 手语主播的“养成”打下了坚实的基础。

2个月的极致努力,一群理工耿直 boy 的浪漫主义

在百度智能云团队眼中,打造 AI 手语数字人,不仅是技术上的创新与探索,更是在价值向善上的追寻与贡献。这样的思考维度,让团队从一开始就选择了一条艰难而正确的路。

1)坚持自然手语语料,做就做难而正确的事

在百度智能云团队深入调研时发现,行业内大多数采用的都是手势汉语语料,现成的数据无需重新标注,只要让数字人将动作实现即可,交付风险小、速度快。但手势汉语在很多情况下会让听障观众产生理解歧义,被看作是“治标不治本”的选择。

更好的技术路径其实是自然手语语料,面对顶级体育赛事的直播压力,数字人还需要增加体育新闻场景的特定语料,这样一来,数据需要重新采集标注,额外增加的成本难以预估,风险不可谓不小。

两难面前,百度人一如既往的的做事原则指引了方向。负责该项目的一位百度同学平静乐观地说:“咱们选自然手语语料,百度就是理工男耿直boy,简单可依赖,做就做难而正确的事。”这句豪言瞬间破除了大家的踌躇不前。

时间紧,任务重,意味着专业人员必须全力以赴。百度智能云在最短时间内组建了一只精锐部队——手语翻译专项团队,打通内部各技术部门,联合手语语言学专家,特殊教育专家等,打造了一套针对体育盛会直播特定场景的数据生产方案。

同时,团队在跟手语老师、专家的交流过程中,学习到大量的行业知识,将这些知识成功融合到百度的模型效果和听障人群的体验中。

与手语专家组举行多次会议

2)三大技术模型打造核心能力

大家平常了解的语言翻译,大多只是文本到文本或语音到文本的翻译。但手语数字人需要具备的翻译能力,则是进行语音到手语动作的转换,背后涉及到语音到文本,文本到手语符号,再到手语数字人动作的漫长过程。

想要手语数字人“听得清”、“会翻译”、“会表达”,就需要三大模型依次解决。

① ASR语音识别模型,让数字人“听得清”

百度基于成熟领先的 ASR 语音识别模型技术为手语数字人解决“听得清”的问题,准确性达到98%以上,成功帮助数字人听懂用户的话,面对中英文混杂、生僻字、方言等各种语音都能轻松搞定。

正如视频中 AI 手语主播与朱广权亲切互动所呈现的那样,即使面对段子手朱广权的神级语速,百度高效、成熟的 ASR 语音识别模型也能轻松 Hold 住。

②手语翻译模型,让数字人“会翻译”

跟一般的中英文语言翻译模型不同,手语翻译模型在信息凝炼度和时延两个维度面临极其复杂的困难。其中精准度影响到数字人手势的精准,精简度影响到传递信息的及时性。

为了做好自然手语语料,让数字人“翻译”更准确,百度团队联手天津理工大学,请来上百位听障学生做语料的数据标注。这是因为算法背后需要高质量的数据,由听障学生做标注,更能与听障人群感同身受,不错过每一个细节,反映出他们的切身需求。

上百位学生“数据标注”启动会

有了高质量的数据资源,接下来就是关键的模型设定与训练。基于百度多年积累的领先的神经网络翻译技术,团队设计了从中文文本到手语符号的翻译方法。

通过对高价值数据的反复机器学习,实现了兼具可懂度和精简度的翻译效果,经历过多次调试,终于成功地支撑起数字人高质量的实时播报能力。

在团队全员的通力协作下,该模型在不到两个月的时间内,进行了6次大的版本迭代,每一版都有明显进步,最终从0到1推出了手语翻译模型,可懂度达到85%以上,媲美主流的中英,中日等方向的机器翻译结果,达到业界领先的水平。

③动作生成模型,让数字人“会表达”

到了这里,手语数字人的研发还剩下“最后一公里”——即关于手势、口型、表情的塑造。

针对手势问题,百度运用人体动作的视觉识别技术,通过机器学习手语视频,再由二维骨骼点转化驱动三维数字人的手语动作,真正实现了动作的 AIGC(AI-Generated Content)!

数字人丰富的手势动作

精益求精的团队,还提出抠好细节,让手势动作更准确,为此做了三大层面的努力:

▪ 第一是严格按照2019年国家通用手语词典的标准来执行,这是“手语的普通话”,确保手势动作能让全国各地的听障人士看懂,同时还把体育专有名词、时政新闻、常用短句等一并收入其中;

▪ 第二是用手指动捕和动作精修技术,可以简单理解为每根手指的动作数据都必须有,并且每根手指的弯曲角度都必须有标准参数;

▪ 第三是邀请手语专家组一个一个评审手语动作,不达标的指出问题所在并打回优化,为此团队搭建了一个手语动作的评审平台,以加快项目的效率。

就靠着这份“较真”,百度智能云目前已经建立了拥有近1万个手语动作的强大动作库,为精准手语表达的实现发挥了重要贡献。

百度智能云手语动作库及人物模型构造

而在口型与表情方面,百度智能云首创4D 扫描数据进行训练,为表情与口型进行精准矫正。通过超10万个全身多边形面、超1万个脸部面、超240个面部表情形变基、超100个身体骨骼节点,准确锁定微笑、开心笑、wink、吹泡泡、白眼、思考等表情,赋予了手语数字人自然生动的表情。同时,a[阿]o[喔]e[鹅]i[衣]u[乌]ü[迂]等口型也被成功生成,总体上口型生成的准确度超过98.5%。

手语数字人的精准口型及丰富表情

以 AI 手语主播,沉淀多一度的社会价值

在整个研发过程中,手语词库编辑、视频校对、动作录制、精修、融合算法开发等环节都需要密切协调配合。一次次的修改经常耗到凌晨,而每一个合作伙伴都毫无怨言,听障学生的贡献、生态伙伴的支持、手语专家的指导,都让团队成员深感温暖。

大家都深知彼此是因为做一件很有意义的事而走到一起。手语数字人的应用效果每增加一分,听障人的沟通障碍就减少一分。当手语专家组为百度点赞时,团队成员很受感动,因为这代表着专家组身后2780万听障人士的“无声认可”。

目前,全球约有4.3亿人有中度及以上程度的听力障碍。听障人士不断增长的资讯与沟通需求,呼唤着功能越来越人性化的 AI 手语主播。

在2021年12月,百度发布了百度智能云曦灵数字人平台,让数字人的开发和运营变得简单、快捷、高效。百度智能云曦灵是数字人生产、内容创作、业务配置服务为一体的平台级产品,为广电、互娱、金融、政务、运营商、零售等行业提供一站式的虚拟主持人、虚拟员工、虚拟偶像、品牌代言人的创建与运营服务。

百度智能云曦灵通过人像驱动引擎、智能对话引擎、语音交互引擎、智能推荐引擎,实现数字人的“能听、能说、能理解、可互动”,目前已打造了央视网虚拟主持人小C、航天局火星车数字人祝融号、百度 APP 代言人龚俊、理财专员小浦等一系列数字人。本次的 AI 手语主播也加入了百度智能云曦灵的数字人大家族。

百度智能云曦灵平台架构图

未来,AI 手语主播将形成平台化产品,逐步走进手语教师紧缺的地区,有效助力听障人群在未来获得更充足的教育资源。同时,秉承着“科技让复杂的世界更简单”的使命,百度智能云也将让包括听障人士在内的每个人都更公平地享受科技带来的便利。

联系购买或合作可点击“阅读原文”。

一手实录公开:朱广权的AI手语搭档是怎样“养成”的?相关推荐

  1. AI手语主播通过朱广权魔鬼面试,残影级手速无惧贯口,今已正式上岗助力冰雪盛会...

    本文经ai新媒体量子位(公众号 id:qbitai)授权转载,转载请联系出处 本文约3000字,建议阅读10+分钟 24小时为你提供手语解说. 什么样的手语主播能跟朱广权battle得有来有回? 话不 ...

  2. 朱广权迎手语新搭档?百度智能云AI手语主播正式上岗

    近日,一则段子手朱广权与"手语主播"在线pk的视频火了,刚刚上线播放量就突破百万.视频中,朱广权用超快语速的顺口溜挑战"手语主播"的"手速" ...

  3. PK朱广权的手语数字人,现在要到医院银行上岗了

    明敏 发自 凹非寺 量子位 | 公众号 QbitAI 还记得冬奥会期间和朱广权battle的AI手语主播吗? 现在,这样的手语数字人不仅要在小荧屏上工作,还能到火车站.银行.医院这些公共场所上岗了. ...

  4. 朱广权李佳琦直播掉线,1.2 亿人在线等

    作者 | 胡巍巍 出品 | 程序人生(ID:coder_life) 原来央视爸爸也有掉线的时候. 4月6日晚间,"国民段子手"朱广权连麦李佳琦,给湖北做公益带货直播. " ...

  5. 上海嘉定上线自动驾驶网约车,《央视新闻》朱广权官方种草

    内容提要:昨日上午,滴滴的自动驾驶汽车,面向上海公众开放试乘服务.用户可在「滴滴出行」App 上报名体验,真切地感受无人驾驶的快感. 原创:HyperAI超神经 关键词:滴滴 自动驾驶  路测城市 6 ...

  6. 为湖北带货,1.2亿人围观!朱广权联手李佳琦隔空直播卖出4014万

    CDA数据分析师 出品 今天我们聊聊,央视"段子手"朱广权 罗永浩在抖音直播的热度虽已褪去,4月6日晚,一场"为湖北带货"的公益直播又火了. 央视新闻的「段子手 ...

  7. 央视首位AI手语主播亮相,动作精确、实时转译,网友:能接住广权的段子么?...

    来源:量子位 气质端庄.面容姣好,手语动作精确而又连贯: 朋友们,你现在看到的这位央视主播并非真人,而是一个AI! 今天,在距离2022年北京冬奥会72天的日子,她正式亮相,成为央视新闻的一位特殊报道 ...

  8. 朱广权和李佳琦直播间为国货代言;博实乐收购翰林学院51%股权 | 美通企业日报...

    今日看点 央视主持人朱广权和淘宝主播李佳琦开"国货正当潮"带货直播.第一次亮相"小朱配琦"直播间的水星家纺,在朱广权老师妙语连珠的推荐下收获330万元的销售好成 ...

  9. 幸好权健AI还没落地!一个腕表顶中医,18个关键点就能刷脸

    三井 雷刚 发自 凹非寺  量子位 报道 | 公众号 QbitAI 幸好,权健的AI产品还没来得及"落地". 这两天,"百亿保健帝国"被曝的一桩又一桩消息惊掉了 ...

最新文章

  1. NoBrokersAvailableError
  2. 《货币是个什么东西》笔记
  3. java 调用groovy脚本,实现多个sql按指定逻辑运行,可做报表预聚合
  4. nginx 中location和root,你确定真的明白他们关系?
  5. mysql 事务 返回插入的值_深入理解mysql事务:事务机制的实现原理
  6. 0框架前端-如何写垂侧边栏(Vertical Tabs)
  7. Kafka权威指南总结
  8. Kali Linux-MSF远控局域网手机
  9. html放大镜小图标,canvas初尝试之放大镜图标绘制
  10. 微信开发者工具小技巧——快速打开微信程序API文档。
  11. Kafka 麒麟先生_近百位超人气嘉宾出席元旦萤火虫 重磅新企划蓄势待发!
  12. 第52届世界标准日,细数我国密码标准化工作成果
  13. 网络连接 断断续续 出现黄色感叹号! 网速缓慢
  14. SUBSTANCE PAINTER质感案例教学 PBR次世代影视游戏场景道具制作 SP金属木头皮革材质渲染...
  15. 银行网申计算机技能怎么填,邮政储蓄银行网申填写技巧分享二
  16. 设计师找灵感,就上这5个网站~
  17. 计算机语言的巴别塔——ANSI Unicode编码
  18. Hololens黑科技101
  19. 二三维一体化电子沙盘地理GIS交互一张图可视化信息系统方案书
  20. 统一UOS操作系统下载和安装教程总结

热门文章

  1. C++为什么父类析构函数要定义为虚析构函数
  2. BigDecimal.setScale()方法实用技巧
  3. 【实用篇】Nginx的配置文件以及案例详细配置实现
  4. 使用一个大的for循环造成卡屏现象的解决方案
  5. 图像的二进制和base64进制转换
  6. Vant Weapp踩过的坑
  7. 力扣让我心碎的第十二天
  8. 『建议收藏』产品经理必懂专业名词一
  9. 改变mathtype插入公式编号格式
  10. 【安全知识分享】企业构建双重预防机制培训.pptx(附下载)