AR属不属于人工智能？看完本文你就懂了

AR/VR常作为孪生兄弟被相提并论，被普遍认为为应用层新技术或者说是“智能可穿戴设备”，相比人工智能相对的“算法”标签，显得不够有深度有内涵高大上，那AR和人工智能之间到底是什么关系?AR属不属于当下我们认知中的人工智能?

2018年3月，上海市经济和信息化委员会公示了2018年第一批本市人工智能创新发展专项拟支持项目。“一共有19家创新企业入围，亮风台作为AR公司也入围此次支持项目”亮风台工作人员告诉青亭网，这不是AR企业第一次被划归到人工智能，但这种归类方式也并不常见。据了解此专项由经信委与市财政局联合开展，拟支持金额超过1亿。

简单梳理下AR的核心技术

AR(Augmented Reality)，是在现实世界中叠加虚拟信息，也即给现实做“增强”，这种增强可以是来自视觉、听觉乃至触觉，主要的目的均是在感官上让现实的世界和虚拟的世界融合在一起。

其中，对现实世界的认知主要体现在视觉上，这需要通过摄像机来帮助获取信息，以图像和视频的形式反馈。通过视频分析，实现对三维世界环境的感知理解，比如场景的3D结构，里面有什么物体，在空间中的什么地方。而3D交互理解的目的是告知系统要“增强”的内容。

这其中有几个关键点：

首先是3D环境理解。要理解看到的东西，主要依靠物体/场景的识别和定位技术。识别主要是用来触发AR响应，而定位则是知道在什么地方叠加AR内容。定位根据精度的不同也可以分为粗定位和细定位，粗定位就是给出一个大致的方位，比如区域和趋势。而细定位可能需要精确到点，比如3D坐标系下的XYZ坐标、物体的角度。根据应用环境的不同，两种维度的定位在AR中都有应用需求。在AR领域，常见的检测和识别任务有人脸检测、行人检测、车辆检测、手势识别、生物识别、情感识别、自然场景识别等。

在感知现实3D世界并和虚拟内容融合后，需要以一定方式将这种虚实融合信息呈现出来，这里面需要的就是AR中的第二个关键技术：显示技术，目前大多数的AR系统采用透视式头盔显示器，这其中又分为视频透视和光学透视，其他的代表有光场技术(主要因Magic Leap而显名)、全息投影(在科幻影视剧作品中常出现)等。

AR中的第三个关键技术在于人机交互，用以让人和叠加后的虚拟信息互动，AR追求在触摸按键之外自然的人机交互方式，比如语音、手势、姿态、人脸等，用的比较多的语音跟手势。

人工智能和AR的技术关联

在人工智能领域有几个概念常被提及，如深度学习(DL)、机器学习(ML)，在学术领域包括人工智能(AI)在内几大领域均有自己的研究界限，而在普遍意义上，我们常说的是泛意的人工智能，涵括所有“让机器像人一样”的技术的应用方向。

从这张图也可以简单一窥三者的关系，深度学习是实现机器学习的一种技术方式，而机器学习是为了让机器变得智能，去达到人工智能。可以说人工智能是最终目标，而机器学习是为了实现这个目标延伸出的一个技术方向。在这其中，还有另一个重要概念为计算机视觉(CV)，主要来研究如何让机器像人去“看”，是目前人工智能概念中的一个重要分支，这也是因为人类获取信息最主要的方式之一就是视觉，目前计算机视觉已经在商业市场发挥价值，比如人脸识别;自动驾驶中读取交通信号和注意行人以导航;工业机器人用来检测问题控制过程;三维环境的重建图像的处理等等。这些概念既有区分也有一定范围的重叠。

其中，2006年开始，Hinton引发的深度学习热潮开始蔓延，在一定程度上带动了AI的又一次崛起，十年中，在包括语音识别、计算机视觉、自然语言处理在内的多个领域取得重大突破，并向应用领域延伸，正发展的如火如荼。

在AR的核心技术中，3D环境理解、3D交互理解和计算机视觉、深度学习都有着紧密的联系。3D环境理解在学术界里主要对应的是计算机视觉领域，而近年来深度学习在计算机视觉中得到广泛应用。交互方面，更趋自然的交互方式如手势和语音在硬件终端的使用，得益于近几年深度学习在相关领域的突破。也可以说，深度学习在AR中应用主要在视觉关键技术。

目前，AR最常见的形式是2D图片扫描识别，如腾讯QQ-AR火炬活动、支付宝五福等多数AR营销中所见，用手机扫描识别图出现叠加的内容，但主要的研发方向还在3D物体识别和3D场景建模。

现实的物体是以3D形态存在的，有不同的角度和空间方位。所以一个自然的扩展就是从2D图片识别到3D物体识别，识别物体的类别和姿态，深度学习可以用在这里。以水果识别为例，识别不同类别的水果，并且给出定位区域，即集成了物体识别与检测的功能。

3D场景建模，从识别3D物体扩大到更大更复杂的3D区域。比如识别场景里面有哪些东西、它们的空间位置和相互关系等等，这就是3D场景建模，是AR比较核心的技术。这其中涉及目前热门的SLAM(实时定位与地图构建)。通过扫描某个场景，然后在上面叠加虚拟战场等三维虚拟内容。如果只是基于普通2D图像识别就需要有特定的图片，而在图片不可见时会识别失败。而在SLAM技术里面，即使特定平面不存在，但是空间定位依然非常精确，就是因为有周围3D环境的帮助。

这里想探讨下深度学习和SLAM技术的融合，计算机视觉大体上可以分两个流派，一种基于学习的思路，例如特征提取-特征分析-分类，目前深度学习技术在这一路线上取得了主导性的地位。另外一种路线是基于几何的视觉，从线条、边缘、3D形状推出物体的空间结构信息，代表性的技术就是SFM/SLAM。基于学习的方向上深度学习基本上一统天下，但是在基于几何视觉的领域，目前相关的进展还很少。从学术界而言，深度学习技术的研究进展可以说日新月异，而SLAM技术最新十年的进展相对较少。在国际视觉顶级会议ICCV 2015年度组织的SLAM技术专题讨论会上，基于近年深度学习在视觉其它领域的快速发展，有与会专家曾提出SLAM中采用深度学习的可能性，但是目前还没有成熟的思路。总体而言，短期内将深度学习和SLAM融合是一个值得研究的方向，长远来看联合语义和几何信息是一个非常有价值的趋势。因此，SLAM+DL值得期待。

在交互方式方面，主要的包括语音识别和手势识别，语音识别在目前已经取得了较大进展，国内如百度、科大讯飞、云知声等都是其中的佼佼者，AR公司更想突破的是手势识别的成熟商业化。

“亮风台展示过的一款基于深度学习的手势识别系统，主要定义了上下左右、顺时针、逆时针六种手势”亮风台工作人员告诉青亭网，先实现人手的检测和定位，然后通过识别相应的手势轨迹来实现对人手势的识别。虽然人脸识别等其他人工智能热门领域在AR中也有使用，但不是AR公司重要的研发方向。

以上不难看出，AR的底层技术或者说基础部分是计算机视觉以及关联领域的融合，而当下热门的深度学习和AR的结合，也是算法工程师们的努力方向。这也是AR为计算机视觉与人机交互的交叉学科，AR的基础是人工智能和计算机视觉等说法的依据。

在去年今日头条发布的《人工智能影响力报告》中也简单统计了人工智能科学家的分布情况，这其中包括人脸识别、语音识别、机器人、AR、芯片等领域的公司与大型研发机构，高端研发人员的分布也说明了AI领域的细分方向。

那AR究竟是不是人工智能?

对AR从业者来说，理想的状态是用更智能的AR终端去取代智能手机，所以对于用户来说接触使用AR首先受影响的是内容，其次是终端，AR产业链可以粗略划分为技术提供商、智能终端研发公司，以及AR内容提供商。在这其中，AR设备提供商不可避免关注硬件技术，如底层的芯片、电池、光学镜片等，以及硬件本身的性能优化，而内容提供商更倾向于在现有技术基础上优化内容及表现。所以我们可以说AR技术提供商，或者说在底层算法研发上有一定成绩的AR公司是人工智能公司。

对公司来说，特别是创企会把底层技术转化为成熟的产品或服务，这可能是如无人机、AR智能终端、机器人等，也可能是行业解决方案，以达到商业目的，并且这已经成为在沸腾声音之后，媒体、企业以及大众对AI企业的期待和要求。近期，人工智能产业发展联盟(AIIA)出版的图书《人工智能浪潮：科技改变生活的100个前沿AI应用》将对外发布，以及涵括了目前巨头公司以及创企在商业化上的前沿成果，也直接反映了AI目前的主要商业化方向。

作为技术驱动的商业领域，无论是AR还是人工智能的其他多数方向，技术距离完全成熟还有很长的路程要走，在整个产业链逐渐繁荣，关注商业化实现的同时，也需要有更多公司机构去不断拓展技术边界，建立核心竞争力，让行业爆发更大的价值与潜力，如此，AI时代中国弯道超车当可期。

原文发布时间为：2018-05-29

本文来自云栖社区合作伙伴“企业网D1Net”，了解相关信息可以关注“企业网D1Net”。

AR属不属于人工智能？看完本文你就懂了相关推荐

计算机音乐制作专业美国研究生,美国纽约大学音乐制作专业研究方向有哪些?看完本文汇总就知道了...
音乐学科中有不少的分支专业,音乐制作就是其中之一,音乐制作可以说是科技的产物,对于如今学作曲的人来讲已成为专业技能之一,在美国纽约大学的音乐制作专业样子hi很出色,纽约大学还开设了专门的音乐学院供学生 ...
java比go难学_为什么Go比Java快这么多？看完这个例子就懂
一,前言本次小测试并不是试图说明Go是java的替代,Go lang和Java本就不是实现相同类型任务的语言 :Java是企业开发语言,而Go是系统编程语言.为什么Go比Java快这么多?看完这个例 ...
云终端linux,云终端详细介绍，看完你就都懂了
原标题:云终端详细介绍,看完你就都懂了随着云计算技术的不断成熟和发展,云桌面被越来越多的人所熟知和使用,我们知道云桌面主要有云终端和服务器这两大硬件所组成.而今天我们要说的就是这个只有手机大小的云终 ...
APP开发所需时间，看完这些你就懂了
在这个互联网时代,拥有一款专属APP软件对于企业来说在品牌宣传.服务对接等方面都是很大的助力,所以APP定制开发已经成为了广泛需求.在开发APP的时候,我们除了关心费用.作用等,也比较关注开发一款AP ...
文科生读计算机博士,文科类哪些专业博士前景好？看完这篇就懂了！
原标题:文科类哪些专业博士前景好?看完这篇就懂了! 会计专业最好总体看,文科类博士就业不如理工类.如果去学校当老师,不挑地方与单位,找工作不成问题.如果要找到人们普遍认为的好单位,目前看会计专业最好 ...
莱斯特大学计算机科学,莱斯特大学与纽约大学计算机科学专业哪个好?看完以下对比就懂了...
计算机科学是现在的热门学科,申请的学生人数正在逐年递增,它是研究计算机及其周围各种现象和规律的科学,现在的很多高校都开设了计算机科学专业,学生们可以选择的范围很广,但是不同学校都有各自的教学特色,那么 ...
靶点c语言,Nature关注的经典靶点，看完这篇就懂了
原标题:Nature关注的经典靶点,看完这篇就懂了解螺旋公众号·陪伴你科研的第2096天靶点虽老,关注不减! 在很多肿瘤中,都存在KRAS 的突变. KRAS-G12C 是一种常见的KRAS 突变 ...
matlab画服装版,设计师必备款式图干货｜如何绘制一张完美的款式图？看完这些你就懂了...
原标题:设计师必备款式图干货|如何绘制一张完美的款式图?看完这些你就懂了 *服装设计是艺术和技术的完美结合,服装设计是通过服装设计师经过市场调查,分析各种流行因素,进行设计构思,然后绘制出设计草图和效 ...
企业为什么要制定精益标准工时？看完这篇就懂了！
现代化程度越高.监管越全面的企业,就会利用精益标准工时去提升效益,用量化的方式去管理企业,从而获得更加广阔的发展空间.那企业为什么要制定精益标准工时?看完这篇就懂了! 一.精益标准工时对生产管理的重要 ...

AR属不属于人工智能？看完本文你就懂了

AR属不属于人工智能？看完本文你就懂了相关推荐

最新文章

热门文章