标签: 微软亚洲研究院      视觉计算    人脸识别   马毅   it     分类: 人才

http://blog.sina.com.cn/s/blog_4caedc7a0100kxps.html

我们生活在一个数据膨胀的世界。对于今天的科学家来说,数据泛滥不能不失为一个难题。一方面,有丰富的信息可供分析利用。而另一方面,如此丰富的数据带来了学习与研究庞大数据量的成本。

有时,这的确可能成为非常沉重的负担。但在马毅的研究中,这巨量的数据却成为一个“利润丰厚”的研究契机。

马毅是微软亚洲研究院视觉计算组的主任研究员。他的研究兴趣在于视觉认知背后的数学原理以及对视觉数据的理解。基于图像的物体识别技术是计算机视觉的核心挑战之一,其中,人脸识别可能是最具吸引力的。马毅和他的同事们指出,一个非常重要却又常被忽视的方法 -- 相关的关键数学概念与有效的软件应用的结合,将引领我们到达人脸识别技术获得巨大进展的新纪元。

近几个月来,他设计出了一个在人脸识别领域产生重大影响的算法。2009年4月到10月,在他从伊利诺大学香槟分校电子与计算机工程系副教授休假而加入微软亚洲研究院的几个月后,马毅和他的团队在众人的质疑声中,第一次证明:电脑人脸识别技术可以在极具挑战性的情况下(如在经历强光或部分遮挡),远远超过人类视觉。

他把这一切归功于“来自高维度的恩赐”。

“在视觉计算领域”,马毅说,“你需要经常与高维度的照片和视频打交道。幸运的是,如果数据的维度足够高,并且有正确的计算工具,你就可以提取并利用数据中非常丰富的信息。这样就为你提供一个机会,让你得以有效的解决一些世界上最难的问题。这就是我说的‘来自高维度的恩赐。”

在一篇发表于2009年8月Communications of the ACM特刊 上的名为《人脸识别的突破》的文章中,明尼苏达(Minnesota)大学电子与计算机工程专业大学教授Guillermo Sapiro特别向马毅和他的研究团队的卓越贡献表示了感谢。

“马毅与其团队的工作,代表了处理人脸识别相关问题的新途径,”,Sapiro说“看到这种崭新的做法,我们都很兴奋。”

还不仅如此。

“在我的生命中,最近三年是让我最为激动的”,马毅,这位在1999年在视觉计算国际会议最佳论文获得马尔奖(Marr Prize)的得主,笑着说,“对于像我这样从事研究的人,这是一生中梦寐以求的时刻。”

现年三十七岁的马毅是四川人,他的研究领域是高维数据聚合与分类、压缩为基础的图像分割、基于稀疏表示的人脸识别、与高维度信号与矩阵的纠错。

马毅在伊利诺大学香槟分校的个人网页上说,“我主要的研究兴趣是找到最适当的数学原则和方法,来辅助分析理解诸如图片和视频的高维度数据,以便于机器和人做出更智能的决策。”

这就是他关于人脸识别的贡献, 利用“稀疏表示(sparse representation)”的分析原理和算法工具,来引领一个能够处理损毁和遮挡的全新的、足够鲁棒的人脸识别方法。并且,所达到的性能不仅远远超过对于计算机视觉的期望,更加超过人类本身的能力所及。

传统上,用计算机进行人脸识别是基于局部区域的特征例如眼睛、鼻子的形状,或者嘴巴宽度等。但是马毅和他的同事证明,一个随机提取的特征点集——一个包含了几百个点的稀疏表示——可以提供足量的信息来确定一幅图像在一个图像集中所对应的对象。这个方法的关键是收集足够的数据,来获得高精确度的识别。

“一切都是新的”

“通过学习这些高维信号,如图片和视频”,他解释道:“人们开始发现原来还有很多全新的现象是他们以前全然不知的。这是非常引人深思的。这些全新的数学现象,是我们从来没关注或了解过的。然而,一旦我们正确地理解并利用它们,我们就能做出从前认为不可思议的事情。”

这些不可思议的事情包括,正确识别戴着墨镜或围巾的人脸,或是一些已经损毁的不成样子的照片。

“这开拓了各种各样的新的机遇与可能”,马毅说道。

这进而激起了美国国家科学基金会对这项工作的兴趣,他们资助了一个由马毅和斯坦福大学Emmanuel Candes教授负责的项目——“低秩矩阵恢复和建模的理论和实践”;同时,2009年,在马毅进行技术演示后,美国国土安全部也表示了兴趣。他的算法的精确度,为视频和静态影像注释、广告,以及监视和识别公共场所的人流等方面带来进步的希望。

这项工作也在研究界掀起潮流,激励大家建立一种行之有效的方法。

普林斯顿大学、加州大学洛杉矶分校等学府。每个人都把目光聚集在这里,因为这门学科才刚刚兴起。我们正在利用这个强大的工具,解决一些世界上最困难的问题。”

“这些算法的应用开始迅速流行。信号处理、成像、医学成像、地质学、生物信息学、编码理论、信息论、控制系统……它几乎已经扩散到每一个工程学科与领域。”

近期人脸识别技术的进步,可追溯到二战后的一些俄国、美国数学家在高维数学领域的突破。问题在于,当时并没有充足的数据来进行验证与实践。今天,通过庞大的高维数据和高性能的计算机,这些工作可以应用于现实的情景。

马毅在加州大学伯克利分校拿到计算机视觉博士学位,多年来从事图像分割,这自然而然地引导他想到通过多个低维的线性模型进行分析并由此描述复杂的高维数据。

数学和人脸识别

“我这些年一直都在研究这类模型背后的数学原理”,他说。“我开始出于兴趣研究这个新的数学分支。而人脸图像是最易获得的高维数据用于验证这些结果。这就是数学工具与人脸识别最初结合的原因。”

“而它的性能就像魔术一样,这一点我们一直都无法理解。现存的数学理论无法解释它。这引起了我们很大的兴趣。事实证明这个方法很有效,甚至比目前理论预测的还要好。这让我们越发钻研隐藏在其背后的数学原理。”

实际上,马毅说,可能需要4至5年才能从理论研究中得到与现在实际结果相印证的结果。

他研究团队中的学生,包括来自伊利诺斯大学香槟分校的Andrew Wagner、Arvind Ganesh与周子寒,美国加州大学伯克利分校电气工程和计算机科学系的研究工程师杨扬,以及马毅在伊利诺斯大学香槟分校带的博士生,现在与他一同在微软亚洲研究院工作的研究员John Wright,是第一批尝试该新工具的人。2009年,Wright因成功的将马毅的想法用于人脸识别,而获得了3万美元的Lemelson-Illinois学生发明奖金。。

“我们之所以能在这项工作中领先世界”,马毅说,“是因为我们独特的应用领域——计算机视觉,这有助于我们发现别人无法预见的、更有趣的数学问题。这使得我们处在一个绝佳的位置。”

马毅的方法的特点之一是可应用于各个领域,而最突出的结果是在人脸识别领域的应用尝试。

“你想要用数据库中尽量少的图片来解释你从未见过的新图片”,他解释说“如果计算机可以找到它,那么被选出的用以表示新图片的、数量尽可能少的图片,就可以为你提供所有所需的信息。”

如果图像的分辨率足够大,那么比如眼睛、鼻子和嘴之类的要素的大小与形状,就不那么重要了。相反,面部图像的整体占据了主导位置。这种方法带来了显著的成效。即使在面部80%被遮挡,例如眼睛、鼻子和嘴被隐藏的情况下,这个新的算法可以找出对应的图像。

“这并不意味着其余的像素是无用的”,马毅说。“它们也蕴含了丰富的信息。如果你有这么多的像素,并且可以正确的利用它们的信息,它们中的一少部分就足以告诉你图像中的人是谁。”

极其准确的效果

在一个测试中,从一个叫AR的人脸数据库中选出一个包含50名男性和50名女性受试者的集合,这个新算法对男性受试者达到百分之百准确,对女性受试者则有百分之九十五的精确度,而这些受试者当时是戴了墨镜的!

“乍看起来很难想象”,马毅说。“开始的时候,我们给一个国际大会提交了一篇论文,但被拒绝了,因为审稿人简直不敢相信。”

该方法的惊人成功,开启了对许多新领域的探索——领域之广以至于研究人员无法掌握他们的全部。

“当我在伯克利大学求学的时候就养成了一个习惯”,马毅说:“我和导师会试着一直保持一个有待解决的问题清单。现在我和我的学生也同样这样做。我和John Wright曾经保持了一个很好的问题清单,但最近我们不这样做了,因为可以列的问题太多了。我们看到了一个非常广阔的前景。”

要理解这个新方法所带来的所有潜力和机会,他们也需要帮助。

“我们确实有个优先次序列表”,马毅说。“我们认为近几年我们可以得到一些拓手可得的成果。但是事情发展的速度和广度超出我们的预计。本质上,我们是工程师而不是数学家。所以,想要成功,我们需要许多专业数学家和其他计算学家的帮助。”

“我们的下一个目标,是展示人脸识别技术。你可以得到能够在相当广泛的、现实的工作条件下运行的,可扩展的、速度快到足以提供近乎实时的鲁棒的面部识别系统。”

当然,挑战依然存在。有着足够的训练并获得了可扩展的大型数据库后,在不寻常的姿态和未对准的情况下,人脸识别还存在一些问题。但是,马毅认为这些困难是可以通过稀疏表示来加以解决的。

“算法中新的挑战”

“在我们能够使用这个核心方法,去建立一个在不同情况下都能够可靠运行的识别系统,还需要考虑许许多多的关于人脸识别技术实用性和其它方面的问题。”他说,“还有很多其它工程运算的难题,都在等着我们去解决。”

“但是我们还不确定我们已经找到了这个拼图中的所有拼块。我们保持谨慎的乐观态度,同时我们也必须非常细心。因为对该方法为什么如此有效,我们还没有完整彻底的理解。”

这种谨慎的态度是可以理解的,但是,在这项技术高歌猛进的时期,保持如此冷静的头脑绝非易事。当马毅在深思这项工作的潜力时,他变得非常乐观积极。

“三维重建、大规模图像分割……”,他说,“人们现在甚至可以实时完成这些工作。”

他立刻沉浸在幻想里。

“今天,视觉是人工智能的一个颈瓶”,马毅说。“我们可以做出完美的机器人——他们可以跳舞、唱歌、跳跃——但是他们却看不见东西,他们不能与人们互动,他们不能识别其他事物。视觉在速度和精确度方面还达不到许多应用的要求。我们的这些工作将帮助那些应用得以实现。”

然而,他马上强调,这种持续的发展是很难预测的。

他沉思片刻,说道:“我们可能会碰壁。目前没有人清楚将会发生什么事情。这就是为什么它令人兴奋,令人紧张,也令人如沐春风。可能下个月,也可能明年,人们会发现利用这些工具来解决另外一些问题的方法。”

“在这个领域里的每一个人都开始意识到几年前的我们是多么的幼稚。之前,我们以为我们想到和尝试了一切,我们对一切都了如指掌,我们是那么的聪明。但是现在,我们知道实际情况可能正好相反。”

马毅与来自高维度的恩赐相关推荐

  1. 马毅:低维模型与深度模型的殊途同归(神经网络、压缩感知和低秩分解与补全)

    机器之心原创 作者:邱陆陆 上周,今日头条人工智能实验室在清华大学举办了第二期 AI 技术沙龙,邀请到上海科技大学信息科学与技术学院的马毅教授带来题为「高维数据的低维结构与深度模型」的主题分享.马毅教 ...

  2. 马毅老师讲座收获总结

    6.22晚上去了一趟清华听了马毅老师的一个讲座,虽然是一场宽泛的讲座,没有扣太多具体的例子,但我还是有些零零散散的收获启发,应该是一段时间以来听的最好的一个讲座.今天是周末,趁着有时间略作总结. 关于 ...

  3. 马毅:低维模型与深度模型的殊途同归

    作者:邱陆陆 上周,今日头条人工智能实验室在清华大学举办了第二期 AI 技术沙龙,邀请到上海科技大学信息科学与技术学院的马毅教授带来题为「高维数据的低维结构与深度模型」的主题分享.马毅教授以计算机视觉 ...

  4. 智源社区AI周刊No.99:OpenAI发布接近人类水平的语音识别系统Whisper;马毅:智能的计算和科学研究将融合...

    汇聚每周AI观点.研究和各类资源,不错过真知灼见和重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 编辑精选 1. UC伯克利马毅:智能的计算和科学研究将能够很快融合 查看详情 近日,智源社区举行&q ...

  5. 不盲追大模型与堆算力!沈向洋、曹颖与马毅提出理解 AI 的两个基本原理:简约性与自一致性...

    近两年,"大力(算力)出奇迹"的大模型成为人工智能领域多数研究者的追求趋势.然而,其背后巨大的计算成本与资源耗费问题也弊端渐显,一部分科学家开始对大模型投以严肃的目光,并积极寻求解 ...

  6. 高维度理论为什么不能存在,看看此文就懂了

    导读:高维度理论为什么不能存在,看看此文就懂了.此文为<时空存在性不需要怀疑>的上篇,还有下篇.建议连起来读.之所以分开发,是因为文章太长,有发文限制.虽然有公式,但大家不要有负担,就是按 ...

  7. 智源社区周刊:LeCun等撰文回应Marcus;朱松纯团队价值对齐工作登Science官网头条;马毅沈向洋等公开AI智能综述论文...

    汇聚每周AI观点.研究和各类资源,不错过真知灼见和重要资讯!欢迎扫码,关注并订阅智源社区AI周刊. 观点 Yann LeCun等撰文回应Marcus:当前对符号推理的争论都是边缘问题 [摘编]深度学习 ...

  8. UC伯克利马毅老师新书:高维数据分析的低维建模

    马毅老师为计算机视觉领域国际知名学者,现任加州大学伯克利分校电子工程与计算机科学系教授.2014年至2017年间,他曾任上海科技大学信息科学与技术学院常务院长兼教授. 马老师的研究方向主要为计算机视觉 ...

  9. 对象存储场景化开发实践-马毅-专题视频课程

    对象存储场景化开发实践-155人已学习 课程介绍         对象存储作为一种新型存储解决方案, 相对于传统的 NAS.SAN 存储, 具有无限扩容.安全可靠.简单易用.高性能.低成本等特点, 可 ...

最新文章

  1. 转:动态链接库的全局变量问题
  2. [kuangbin带你飞]专题七线段树 更新ing
  3. 方向梯度直方图(HOG)和颜色直方图的一些比較
  4. Ubuntu14.04引导菜单修复
  5. python 定义变量_用python解决动态的定义变量名(并给其赋值方法:大数据处理)...
  6. pytorch torch.narrow
  7. 小米 11 不送充电器;苹果已修复 iCloud 登录激活问题;Ruby 3.0.0 发布|极客头条...
  8. CentOS 5.4安装rar
  9. sharepoint修改密码
  10. Matlab代码:综合能源系统(IES)的优化调度
  11. 计算机五笔打字口诀,五笔打字口诀
  12. 使用js实现百度地图与高德地图经纬度的转换
  13. Java---利用Zing生成二维码、解析二维码
  14. bin、hex、elf、axf文件的区别
  15. python图片识别文字开源库Easyocr使用
  16. html5语音 没反映,【报Bug】关于HTML5 getUserMedia()、audio语音的问题
  17. 如何系统地学习3D建模!教你零基础入门,初学者看过来
  18. RTB广告技术修炼之-流量漫游
  19. xiuno4.0 火车头发布模块一Web登陆版
  20. END-TO-END DNN BASED SPEAKER RECOGNITION INSPIRED BY I-VECTOR AND PLDA

热门文章

  1. JavaScript实现无缝轮播图效果
  2. 【云栖大会】探索企业互联网转型之路
  3. gitee图库无法访问(2022.3.25)的解决办法
  4. 【Git】git push -u origin master 的含义和 -u 的含义
  5. 供给云发布AI微信群助手,赋能企业私域运营
  6. 华为鸿蒙系统学习笔记1-介绍
  7. XSSFWorkbook 设置单元格样式_6.6 使用单元格样式
  8. python爬取智联招聘_【原创源码】python 爬取智联招聘
  9. python爬虫——电影《逐梦演艺圈》影评爬取
  10. 30 年 IT 老兵谈数字化:这就不是个技术活