多模交互融合是普适计算和自然交互中最重要的组成部分。笔者认为,实现完整的多模交互融合需要分成四个阶段,分别为独立工作阶段、初步融合阶段、语义理解阶段和任务自适应阶段。

01

独立工作阶段

各自工作阶段的意思是多个模态可以正常、独立地工作,但各个模态没有融合在一起。之前笔者写过一篇《什么是多模交互?》,里面介绍了每个模态的基本现状,在这里我就不重复介绍了。触控、语言仍然是现阶段人机交互中最常用的交互方式,例如GUI和VUI。手势识别在2019年有了新的突破,Google的科学家们研究出一种新的计算机视觉方法,用于实现手部感知。该方案能够在实机实验中仅凭一帧图像识别出一只手(或者多只手)上的21个3D点位,而且能在手机上就能进行实时追踪,并且还能同时追踪多只手,可识别遮挡。但有些时候玩着玩着,屏幕也会突然“放空”,只能看到手,识别不出手势。

为了避免全部手势识别都依赖于计算机视觉技术,Google还设计了一款名叫Soli的微型雷达芯片,它首次应用于Pixel 4和Pixel 4L上,用户可以通过在Pixel 4上方做手势,控制音量、导航菜单等,而无需触摸显示屏。为了实现“亚毫米”手势分类,Soli背后的团队设计了一个系统,该系统包含使用从数千名Google志愿者那里记录的数百万个手势进行训练的模型,并补充了数百小时的雷达记录。

02

初步融合阶段

多模交互初步融合的关键是找到相同参照物,以参照物为中心实现多个模态之间的信息互通。只要实现多模态的焦点对齐,以及多模态之间的状态管理,就能初步实现多模态融合。多模交互融合和跨设备/跨任务交互是密切相关的。本质上来讲,多模交互融合是从人的角度管理交互的焦点和状态,跨设备/任务交互是从机器的角度管理交互的焦点和状态,所以它们是息息相关的。

由于肢体动作识别、手势识别、表情识别仍处于早期阶段,在初步融合阶段商业产品是不会把它们考虑进去的,所以多模交互融合在此阶段更多是基于触控和语言的GUI和VUI融合。GUI和VUI融合更多是指用户可以通过语音、触控的方式操作一个操作系统,而且两种方式不会相互冲突。想了解更多关于GUI和VUI融合的内容请看笔者之前写的文章《VGUI融合的三种实现方式》。

03

语义理解阶段

“语义”这个词相信大家在很多领域都听说过。那么什么是语义呢?语义在维基百科中是这样描述的:1883年,法国学者米歇尔·布雷亚尔首次提到了“语义学即意义的科学”,并根据希腊语创造出“语义学”(semantics)这个词汇。现在的语义学是一个涉及到语言学、逻辑学、计算机科学、自然语言处理、认知科学、心理学等诸多领域的一个术语。

从“语义学即意义的科学”和涉及学科之广可以看出语义的重要性。在语音交互中,语义可以理解为一句指令包含的意思。在图形界面交互中,笔者认为GUI的语义由控件语义和操作语义两部分组成,例如开关控件和滑块控件代表了不同的含义;长按和滚动属于不同的响应事件,两者结合起来可以产生更复杂的语义。

为何初步融合阶段中没有包含肢体动作、手势和表情?因为肢体、手势包含的语义很复杂,涉及到人因学、社会学等多个学科,例如“OK”手势在美国、英国、中国的文化中,这种手势意味着所有的东西都是妥妥的“OK”,但是在土耳其、希腊、巴西和德国的部分地区,“OK”手势是一种极具侮辱的冒犯性手势。加上表情理解的话,整个肢体语言的语义变得更复杂,例如假笑加“OK”手势到底是什么含义,真OK还是假OK?表情识别仍处于起步阶段,只能识别愤怒、恐惧、快乐等表情,而且准确率不高,说不定前文提到的假笑有可能是计算机错误的判断。肢体动作、手势和表情的语义理解缺失会让多模交互融合缺失了很多可用信息,这是多模交互融合的最大瓶颈之一,也导致了当前多模交互融合只能在GUI和VUI上研究语义的融合和理解。

04

任务自适应阶段

多模交互融合另外一个最大的瓶颈是我们还不能很好地量化人类的的认知资源和认知负荷。在认知科学中,已经开展了许多研究来理解人类如何处理信息和做出决策。人类是一个单通道的还是并行通道信息处理器呢?一个人可以同时处理来自不同源头的或者不同传感器的信息,或是信息排队等候一个单处理器一次来处理一块数据?

以驾驶汽车为例,在早期的学习驾驶过程中或者司机在承受压力的情况下,大部分的有意识的信息处理是在单通道模式下执行的,这时候司机会很专心地望着前方开车。当司机学习、并获得技能后,许多简单的任务可以同时进行,这时候司机可以在做其他事情的同时不时通过周围视觉来留意前方的路况,从而判断是否继续完成当前任务。

在以上例子上做个补充,当司机全神贯注于什么别的东西时如何到达目的地?当大脑处于积极处理一些其他信息状况时,司机的潜意识(或无意识的)信息处理活动(如果他们是高度熟练的),可以接管并完成驾驶任务,而不需要完全了解情况。

同理,当熟练使用菜刀的你在厨房边听着歌边用刀切菜时,其实你大脑里还能想其他事情,这时候你同时在处理三件事情但你一点都不会手忙脚乱。如果是一个刚学切菜的新手如果边切菜边想其他事情,很有可能会切到自己的手指。在某种程度来说,肌肉记忆已经在帮你完成切菜的任务。

从上面的例子可以看出,如果要完成一系列任务,人类对信息的认知及管理是非常重要的。目前认知心理学更多是通过观察人类的行为然后分析背后的原理,但是不同的学派观察的角度不一样,这导致了认知心理学有着不同的认知理论模型。在工程心理学中,对多模交互研究最有帮助的理论模型目前笔者找到了三个,分别是工作记忆模型理论、多重资源理论和中央瓶颈理论,具体的理论知识笔者就不在这里详细阐述了。

有趣的是,各个学派的研究学者无论怎么努力完善他们的模型,还是会不断出现新的问题,这也导致心理学家从研究人类行为逐渐转向研究人类大脑的活动情况,所以如何理解并量化人类的认知资源和认知负荷仍是一个难以解决的问题。这也导致多模交互融合过程中,信息无法被合理运用到各个模态中,目前我们只能合理地人为地设计一个认知资源和认知负荷的阈值,希望不会引起用户在使用产品过程中出现手忙脚乱的情景,但这个阈值大概是多少,目前还没有定论。

05

推荐阅读

什么是多模交互?

AI如何影响智能交互

VGUI融合的三种实现方式

实现多模交互融合的四个阶段相关推荐

  1. 从显示、控制到多模交互,座舱“智能化”进入AI攻坚战

    如何正确理解"软件定义的汽车",是当下汽车产业链各个角色企业需要认真思考的问题.谁是推动者?OEM和供应商角色如何转变?硬件和软件的关系如何演变? 电动化.智能化和网联化正在重塑用 ...

  2. 【智能座舱】从显示、控制到多模交互,座舱“智能化”进入AI攻坚战

    如何正确理解"软件定义的汽车",是当下汽车产业链各个角色企业需要认真思考的问题.谁是推动者?OEM和供应商角色如何转变?硬件和软件的关系如何演变? 电动化.智能化和网联化正在重塑用 ...

  3. NFV WorkShop回眸:NFV发展的四个阶段

    大家好,今天大家介绍一下OPNFV和NFV产业发展背景和发展阶段以及它的技术特性.今天我的主题演讲主题叫做NFV发展的四个阶段.NFV技术发展已经有三年时间了,但是从产业角度来看2012年开始走到现在 ...

  4. Web前端开发的四个阶段(小白必看)

    第一阶段:HTML的学习 超文本标记语言(HyperText Mark-up Language 简称HTML)是一个网页的骨架,无论是静态网页还是动态网页,最终返回到浏览器端的都是HTML代码,浏览器 ...

  5. 计算机网络四个阶段的发展特点,计算机网络的发展分哪四个阶段,特点?

    四个阶段是: 1.以单机算计为中心的多终端联机系统:20世纪50~60年代,计算机网络进入到面向终端的阶段,以主机为中心,通过计算机实现与远程终端的数据通信. 特点:主机不仅负责数据处理还负责通信处理 ...

  6. Richard Sutton:经验是AI的终极数据,四个阶段通向真正AI的发展之路

    导读:强人工智能的发展是近年来关注的话题.让AI从人类的感知和行为,而非单纯的标注数据中学习,成为许多研究者关注的重点.其中,如何利用人类习得的日常生活经验,启发构建能够适应不同环境,与外部世界交互的 ...

  7. 团队发展的四个阶段以及各阶段的领导力施展

    团队发展的四个阶段: 团队形成期: 团队风暴期: 团队规范期: 团队绩效期. 不同阶段需要具备什么样的的领导力? 一.团队形成期的团队领导力 任何团队在刚刚建立的时候,都必须经历团队形成期,这里表现为 ...

  8. 沈向洋、华刚:读科研论文的三个层次、四个阶段与十个问题

    来源:微软学术合作 本文约6000字,建议阅读8分钟. 阅读文章不仅是大家在科研道路上进步的必由之路,也能使我们的心智不断成长,认知模型和思维方式不断完善. 沈向洋博士:如何以正确方式打开一篇科研论文 ...

  9. 企业价值观念形成的四个阶段

    文/舒化鲁 企业价值观念的形成一般要经过四个阶段: 首先是倡导阶段. 这一般是企业高层领导人对这个企业经营中的九对关系中的某个或者全部,有了一定程度的认识之后,在自己的头脑中形成了处理协调这相应关系的 ...

最新文章

  1. 2022-2028年中国钢轨探伤车行业市场研究及前瞻分析报告
  2. Oracle SQL Tuning Advisor 测试
  3. Ubuntu 14.04 64位上安装Adobe reader 9.5.5
  4. rdcl 报表设置不分页
  5. Linux服务器IP下了,linux – DDOS攻击下的服务器 – 如何查找IP?
  6. ViewPager 详解(二)---详解四大函数
  7. elasticsearch aggregations_elasticsearch 笔记三 之聚合查询之分组计数、平均数、最大值、script、最小值、总和...
  8. 【知识整理】这可能是最好的RxJava 2.x 入门教程(四)
  9. JavaScript 演练(8). 对象成员、类成员(原型、非原型)
  10. C#:XML操作类--转
  11. 网络安全实验室(基础关)
  12. 打孔式计算机,矩阵式打孔计算机3005-D型
  13. 物理量与单位符号的书写标准
  14. 高级语言与低级语言如何定义?解释型语言和编译型语言又如何区别?
  15. 创新工场王嘉平开讲:low-level的计算机视觉
  16. 数字图像处理王慧琴课后答案_清华大学出版社-图书详情-《数字图像处理(第3版)》...
  17. 关于JavaScript的模块(CommonJS, AMD, CMD, ES6模块)的理解
  18. Linux学习~树莓派gpio控制
  19. js与html和css的关系
  20. 相位相干切换超低相噪多通道信号源解决方案

热门文章

  1. PHPstorm必备插件推荐
  2. Python计算机视觉之基于BOW的图像检索
  3. CSS复合选择器( 交集、 并集、后代、子元素、兄弟、伪类、伪元素)
  4. JAVA的多线程、死锁、线程间通信、如何规避死锁、线程安全的单例模式
  5. 如何让笨重的架构变灵巧?
  6. HTML11 表格和表单
  7. linux服务端 完美世界 下载,完美世界服务端(linux架设版)[模板源码]
  8. 蓝牙5.1的ble那些事儿
  9. 操作系统教程(第5版)习题解答
  10. 电容笔和触控笔有什么区别?实用平板电脑手写电容笔推荐