于是,没有iPhone X,我也可以在我仅2000元的安卓机上玩转黑科技了。

记者:鸽子

在我威威天朝,表情包早已泛滥在各类社交应用程序中,如今,咱可以玩点新的包了。

就这个啦!在苹果iPhoneX的带领下,一种新的娱乐方式来了...

它生动而霸道地诠释了什么才是真正的表!情!包!

我的表情我做主,吼吼...

这就是iPhone X在基于Face ID的新功能下,推出的Animoji。

当你对着摄像头抬眉头、皱眉毛、动下巴、睁眼睛、闭眼睛、张嘴唇、咧嘴笑时,手机就会捕捉你的表情,并将其赋予可爱的卡通形象,实时生成一个属于自己的表情包。

如果说今天我们的重点是聊苹果,那也太low了,发布会过去了这么久,太对不起媒体的实效性。
今天,我们想说的是,有一家神秘的中国公司,早在2年前,就在手机上推出了同样的功能,并且越做越深。而更为神奇的是,在完全没有深度摄像头,甚至没有双目摄像头的情况下,它做到了同样的效果。这引起了AI科技大本营的注意。
这家低调的公司名叫appMagics——迈吉客科技。
早在2016年,该公司就完成了千万级人民币的A轮融资,投资方为极客帮及紫辉创投。在2016年9月获得蓝港互动战略投资后,它又在2017年6月完成了由华盖资本领投,博将紫辉跟投的数千万人民币A+轮融资。
在看过苹果发布会关于表情包的展示后,AI科技大本营记者也第一时间联系并试用了appMagics的产品。
总体的感觉是:体验很流畅,表情的贴合度较高,模拟很真实也很细腻。不过,当人突然将距离拉远,且快速剧烈摇摆时,表情识别偶尔会出现捕捉掉线的情况。
这之后,AI科技大本营记者对appMagics CTO金宇林进行了独家专访,问题略微犀利,回复拒绝套路。希望搞清楚,创业两年多的appMagics,与苹果最新的黑科技,到底有何可圈可点之处。采访内容在不披露被采公司核心技术机密的情况下,尽量保持原样,部分言辞稍作不改变原意的修改。
AI科技大本营:简单了解一下您的技术背景。
金宇林:最早我是在北京航空航天大学读计算机图形学硕士,之后去了斯坦福继续读计算几何学,这算是计算机图形学的一个分支。毕业了一直留在美国微软总部,算是微软研究院3D打印项目的创始人之一,也申请过挺多专利。算起来,我做计算机图形学,已经15年了。
AI科技大本营:
我们直击重点,表情识别这个玩法,背后的技术原理是什么?
金宇林:
我尽量说得通俗一点。
原理大致分为三个步骤,第一步是人脸关键点识别与跟踪,第二步是表情分析和映射,第三步是三维模型的控制。
具体来讲,人脸关键点识别和实时跟踪,就是根据脸部标注的关键点,比如,哪里是眉毛、哪里是眼睛、哪里是嘴等,让摄像头清楚看懂人的面部。
表情分析则是说,根据识别和跟踪到的面部关键信息比如眉毛、眼睛、嘴等进行的运动,预测用户是闭眼还是说话,开心还是悲伤。
而三维模型的控制则是用面部关键信息,来驱动构建好的虚拟形象,去学习和模拟用户的表情。

总的来说,前两部分属于计算机视觉的研究范围,第三部分属于计算机图形学的研究领域。

AI科技大本营:到底appMagics所做的表情识别与苹果刚发布的iPhoneX,差别在哪?

金宇林:刚刚我提到了表情动画的原理分为三个步骤,我们跟苹果的差别主要是在前两步上,也就是第一步人脸关键点识别与跟踪,和第二步表情分析和映射。
简单来说,苹果是在3D系统(RGBD摄像头)的基础上做,而我们是在2D系统(RGB摄像头)上,所依赖的软硬件系统不同。(小编注:为了便于理解,以下RGB摄像头统称2D系统,RGBD摄像头统称3D系统)
那2D与3D系统在效果上有什么差别呢?
对于眼睛、眉毛、鼻子、嘴巴这些人脸中分界比较明显,特征比较明显的地方来说,只要训练的面部数据足够多,2D跟3D系统在捕捉上几乎没有差别。
但对于面部特征不太明显的额头、脸颊等,2D系统的捕捉就不如3D系统精准了。2D不太容易识别出这些部位的点,但3D由于多了一个纵深信息(z轴),它是可以识别到额头、脸颊这些点的。
拿苹果所采用的深度摄像系统来说,这是一个3D结构光传感系统。也就是说,这个系统除了有日常2D系统(普通前置RGB摄像头)捕捉的平面视觉信息外,还有纵深的视觉信息,也就是Z轴。
这个Z轴纵深的数据信息主要来自Dot Projector(点阵投影仪),通过它将结构红外光投射到人脸上,再用红外摄像头接收这些投射在人脸上的形变,计算面部每个点的深度数据。
这样,每个点不仅有了平面的坐标,而且有了Z轴深度坐标,对每个图像信息点的定位更为精准。
至于第三步,我们跟苹果没有差别。在三维模型控制和最终呈现效果上,我们从一开始的定位就是三维混合现实。
AI科技大本营:那我是不是可以说,苹果iPhoneX无论在精准度上,还是性能上,都更占优势?
金宇林:就客观条件来说,由于iPhoneX在RGBD摄像头的硬件基础下,识别的关键点更多,所以确实能精准捕捉到更多细节。
另外,由于苹果可以完全支配自己的软硬件系统,因此iPhoneX在性能上,一定更稳定。别说是表情,在很多方面,苹果手机由于软硬件一体化,性能也是大大优于其他手机的。这是客观硬件配置所决定的,没办法。
不过要说到苹果的优势,其实并不完全是这样。这里有两点需要说明一下。
第一,对于表情的捕捉,并非越精准就一定越好。因为人的感官并非完全是写实的。
怎么理解?我举个例子。当你闭上双眼的时候,其实并不是同时闭上的,可你自己以为是同时闭的,所以,当你看到表情捕捉到一只眼总是闭得慢一些时,会产生不适感。
再比如,当你闭一只眼时,另一只眼其实会眯上一点,但人并不自知。所以,当你看到表情捕捉呈现出最真实的效果时,反而不舒服,因为这跟你的潜意识不符。
所以,当我们把表情捕捉用于泛娱乐场景时,它更重要的目标是让虚拟形象能够传达人类的情感。所以,我们会用算法做一些处理,让你在真实和虚拟中达到一种视觉平衡。这种情况,确实并非越写实越好。

做VR和AR的人,可能对这一点的理解更深。

第二,在某些必须达到的真实度上,即使硬件并不具备,我们用算法也是能弥补的,而且效果绝不差。

我们两年来,一直埋头所做的一件事情就是,通过不断优化的算法,让表情模拟在普通手机上也能玩起来,而且传达人类的情感。
啥意思?
简单来说就是,原本普通RGB摄像头不容易捕捉的部分,我们靠算法来弥补。
比如,当我咧嘴的时候,我们会通过算法,来预测和模拟脸部肌肉的隆起;在皱眉的时候,也通过算法,来模仿额头的变化。我们在2D摄像头系统之上模拟了三维数据,在客观硬件基础不具备的情况下,也能将表情动画玩起来,而且看不出来太大的差别。
也就是说,通过算法,尽量降低玩表情动画的硬件要求和硬件成本。目前我们在iphone6上就能玩起来,安卓机也能玩。
AI科技大本营:这算技术上的核心竞争力吗?
金宇林:可以这么说。
其实,要说表情识别,好莱坞很多年前就在电影特效中用上了。
比如阿凡达和魔兽世界里面的表情就是用三维重构来实现的。具体的原理是,通过在演员的脸上贴图,形成一定的点阵(与苹果点阵投影仪的原理一致),脸部的特征就出来了。这样,当你的面部表情变化时,脸上的点随之而动,摄像头将其精准捕捉,就可以放在三维模型上用了。

但好莱坞的硬件多贵啊,普通人想玩这个怎么办呢?所以我们就基于普通手机的RGB摄像头,重新设计算法,在没有深度信息的情况下用算法来弥补,把这些功能实现了。

把影视CG技术消费化,把影视动漫玩的东西搬到每个人的口袋里,iPhonen能用,安卓手机能用,普通PC能用,Mac也能用,跨平台,这算是核心竞争力。

说白了,是把工业级能力和技术转化为民用级,让人想玩就玩,不用考虑太多硬件的配置。

AI科技大本营:如果说多年积累的核心竞争力在于,在2D系统(RGB摄像头)用算法来做3D系统(RGBD摄像头)才能做的事。那当3D摄像头普及,还有优势吗?

金宇林:就像我刚刚提到的,在表情识别上, 我们的核心算法分为三部分,获取现实中的关键信息确实基于普适的2D摄像头系统,不过我们从一开始就采用的3D数据模拟和控制,如果有一天所有手机都能直接获取三维数据,那么这一步我们的算法是不用做任何更换的,直接复用,所以这部分积累的优势仍然在。
但正如你所说,如果3D摄像头普及,整个行业的软件算法门槛将被大大拉低,我们基于2D系统所做的算法积累和优化确实就没有特别多的优势了。
不过你要知道,RGBD摄像头的普及并非易事,苹果不也是在iphone X上才采用,iphone8上都没有,因为目前RGBD无论在硬件微型化的成本和耗电方面壁垒都太高了。
这样说吧,从现在到未来很长一段时间,市场上绝大多数手机仍是2D摄像头的苹果和安卓机,那么我们基于2D系统所积累的三维算法壁垒,仍长期存在。
AI科技大本营:所以,基于目前的优势,主要拼抢的是中低端2D摄像头市场?
金宇林:从技术上来说,两个方向吧。
一个方向主打深度和精细度,高端手机市场,基于现有技术积累不断开发新算法的能力,包括直接可兼容用在3D系统中的算法;
一个方向主打广度,继续针对2D系统,扩大该技术在中低端手机上的适用性。目前我们算法的定位可以适用iphone5以上的苹果机型,以及主流安卓机型。这块会一点点往下做,匹配更多中低端安卓机型,覆盖更多用户。
这两方面都很重要。
抛开技术,从整个公司的战略来说吧,创始人Leody(小编注:appMagics 创始人CEO 伏英娜)一直强调,我们自身定位是跨界跨界跨界,不是天天埋头就搞计算机视觉、图形学、人工智能这些技术,技术的背后要有感觉,有感情,有感性的元素才行啊。

    appMagics所设计的卡通表情形象

AI科技大本营:既然这样,为何非要自己开发背后整套技术,为何不直接调用第三方人脸识别科技公司的技术,专注于打造娱乐产品就好,岂不更省事?

金宇林:其实一开始,是考虑采用第三方技术的,不过试过所有的第三方技术,发现没有办法直接用。
为什么呢?
你看,目前CV(计算机视觉)领域,最大的市场是安防和金融。
对于安防和金融来说,计算机视觉主要的作用是,在很短的时间内判断是不是本人。而我们的要求是,计算机所识别到的表情是否精细,虚拟表情所模拟的效果是否准确。
这是两个完全不同的目标。那么其训练的出来的数据和算法,只能服务于一个目标,没有办法兼容。
再一个,目前的人脸识别大多是二维算法,但二维算法没有深度信息,用在表情模拟和控制上是远远不够的,因为很多特征不明显的关键点捕捉不到。这块就必须用三维算法来补齐。
所以,我们只能自己来做,从头到尾设计算法,做数据训练。
AI科技大本营:随着想要实现的不同目标越来越多,未来CV领域貌似越来越细化了。
金宇林:必须细化。
AI科技大本营:估算一下,表情动画这块有多大的市场规模?
金宇林:不说别的,就单说手机。如果现在所有的手机用户,管他是苹果还是安卓,管他高中低端,都想玩这种表情包,而现有手机的硬件条件也都带得起来,你觉得这是一个多大的市场。这块你可以具体跟Leody聊聊。
AI科技大本营:苹果这次iPhone X发布会,对公司倒是个很不错的PR机会。就最近而言,有什么特别大的直观的影响吗?
金宇林:特别大!这几天,因为苹果iPhone X推表情动画这个事,突然多了一堆找上来的合作伙伴和投资人,什么安卓厂商,APP,做输入法的公司,全挤过来了。
Leody还没回北京已经约不过来了。
一个行业最好的状态是什么呢,就是你做一个东西,一开始只有你在做,慢慢的,很多人发现,“咦,这个东西很有用啊”,于是都来学你做,因为表情动画很可能在未来两年成为App和手机标配,这就证明,你之前预测对了,你押对宝了。(笑)
附:
appMagics创始人兼CEO
伏英娜 Leody Fu是位女极客+连续创业者。2004年离开索尼爱立信创办MoGenisis,并于2007年成功被Symbian(诺基亚)并购。2010年加盟微软,先后担任大中华区及美国总部高管,带领团队进行微软新技术的传播和推广。2014年创办appMagics,专注于计算机视觉混合现实相关技术与文娱领域的跨界创新。

独家 | 我们扒出了这家中国创业公司,竟比苹果iPhone X早两年推出黑科技,还不用借助深度摄像头...相关推荐

  1. 独家 | 我们扒出了这家中国创业公司,竟比苹果iPhone X早两年推出黑科技,还不用借助深度摄像头

    关心AI的人们都关注了此号☝☝☝ 于是,没有iPhone X,我也可以在我仅2000元的安卓机上玩转黑科技了. 记者:鸽子 在我威威天朝,表情包早已泛滥在各类社交应用程序中,如今,咱可以玩点新的包了. ...

  2. 最新【独家沙龙内容整理】机器女友?—百度微软讯飞等顶级专家谈人机对话黑科技及未来 ——by中科院孢子创客空间

    最新[独家沙龙内容整理]机器女友?-百度微软讯飞等顶级专家谈人机对话黑科技及未来 --by中科院孢子创客空间 1.写在前面 非常非常感谢[公众号:机器学习研究会 ]举办的这次沙龙.赞赞赞.以下内容皆来 ...

  3. 独家!扒出腾讯新高管余总的真面目!

    若治 发自 凹非寺 量子位 出品 | 公众号 QbitAI 大意外! 今早腾讯突然宣布一项全新的高管任命. 主流财经网站也发出快讯. 这篇任命的阅读量迅速突破10万+,引发了外界大量的关注.腾讯此次高 ...

  4. amd插帧技术如何开启_让游戏帧数暴涨,RX 590解锁蓝宝独家黑科技

    此前,A卡厂商蓝宝石在发布非公5700系列显卡之时,为我们带来了一项非常牛逼的黑科技,这项黑科技叫做"TriXX Boost",它是通过TriXX软件来自定义画面分辨率,同时采用A ...

  5. Pad居然可以写代码了?研究完我惊了,居然是中国创业公司的产品

    边策 发自 凹非寺 量子位 报道 | 公众号 QbitAI 有点意外. 这都2102年了,Pad才开始告别"买后爱奇艺"的处境. 就在今年的苹果WWDC上,最突出的就是iPad终于 ...

  6. 奥运会上刷新亚洲记录的211高校副教授苏炳添论文被扒出,网友:膜拜大神!...

    8月1日,在东京奥运会上,苏炳添跑出中国体育历史的新篇章! >>>> 中国速度惊艳世界! 在男子100米半决赛中,他以个人最好成绩9秒83,创造新的亚洲纪录.决赛中,他以9秒9 ...

  7. 乘S10热销的东风,三星四机齐出再攻中国手机市场

    近日三星在中国一口气发布了四款中端手机,分别是galaxy A80.A70.A60和A40S,主攻国内的中端手机市场,对于当下中国手机热衷的全面屏设计均有涉及,似乎是要用机海战术再战中国市场,而此前发 ...

  8. [转帖] 中国SaaS死或生之二: ERP两大邪术,尽出歪门邪路 ---- 挺好玩的

    中国SaaS死或生之二: ERP两大邪术,尽出歪门邪路   http://www.cniteyes.com/archives/33753 文章摘要:在数字化浪潮中,油腻ERP大叔的那些"歪门 ...

  9. 微软学者奖学金2020名单出炉!中国高校八人上榜,清华表现最为亮眼

    微软学者奖学金2020官方名单出炉! 中国高校有八人上榜,其中清华大学表现最为亮眼,有4人入选. 2020 年度的"微软学者"项目吸引了来自全亚洲 36 所顶尖大学及研究机构的 1 ...

最新文章

  1. java继承详解加练习题
  2. flask 作为 three.js 的服务器
  3. DBSNMP和SYSMAN用户初始密码及正确的修改方式
  4. H2O —— 宣称性能是 Nginx 2 倍的 HTTP 服务器
  5. 大家来聊聊如何PASS 360
  6. 日志ILog(文件日志/控制台日志/控件日志/网络日志)
  7. 这些数据分析方法你都掌握了么
  8. python中sklearn中的Imputer模块改动
  9. 用jquery模仿的a的title属性
  10. LeetCode刷题——343. 整数拆分
  11. javascript 高级编程系列 - 创建对象
  12. Nature指数全球城市科研排名:北京第一,上海第五,南京第八
  13. python京东注册机_京东自动注册
  14. Visual Studio 6.0下载地址
  15. 根据微信号,生成微信公众号二维码
  16. 通过CLion 调试JDK源码
  17. java毕业设计的创意项目众筹平台的设计与开发mybatis+源码+调试部署+系统+数据库+lw
  18. Java文件下载,HTML进度条实时刷新进度
  19. java实现pdf转图片pdf
  20. Linux下 SpeedTest 工具测速

热门文章

  1. 解决-bash: rvm: command not found提示,在mac环境下安装离线安装rvm
  2. [数据集][VOC][目标检测]西瓜数据集目标检测可用yolo训练-1702张介绍
  3. HTML网页中,嵌套HTML页面
  4. 如何设置PCB迹线角度?最好是45度还是圆弧?90度直角接线可以吗?
  5. python 打开pdf文件_用Python开发的简易PDF阅读器
  6. android 心跳 简书,Android Socket保持心跳长连接,断线重连
  7. 更新系统后iphone6s无服务器,目瞪口呆!iPhone6S升级iOS11后,居然秒变iPhoneX
  8. 【规范】代码分支管理规范
  9. 如何加入New Bing
  10. php网页制作添加线条,html5Canvas实现画直线与设置线条的样式-