不知大家有没有注意到(也可能是我敏感了),最近一些大机构不约而同地开始挖新坑了,两个风向标DeepMind和OpenAI,先后发布了Gato和VPT,期望除了图像和文本之外,预训练模型也能够与环境交互

这个方向,叫Embodied AI(具象AI)

与具象AI对立的词是Internet AI[1],指通过互联网上的数据进行学习,比如我们一直在做的CV、NLP。而Embodied AI是指从与环境的交互中学习

NLP+CV+RL,这个组合大概率是通向终极目标的必经之路,但我没想到这么快就要来了。而且随着预训练的颠覆,这个坑变成了:

如何通过互联网上丰富的多模态数据,训练一个通用模型,可以根据指令在环境中执行各种任务

上述是我自己给出的问题定义,其中有以下两个难点:

  1. 如何提升学习效率:正如LeCun说的,通过与环境交互学习有很大风险,效率也低(正向奖励太少),而通过观察(observation),利用现有数据学习效率才更高,这样也可以延续预训练-精调/Prompt的范式,把更多的知识迁移到下游

  2. 复杂的输入输出和环境:在最复杂的情况下,模型的输入是多模态指令,输出是可以在真实环境执行的动作。其实针对Embodied AI的评估有多种任务,比如Navigation、Manipulation、Instruction following,但指令是可以描述所有任务的,需要更高维的理解。同时,输出的动作空间大小、环境是模拟的还是真实的,都会带来不同的挑战

以这两个难点为轴,上半年一些机构的进展如下:

下面就从右下到左上的顺序介绍一下这些工作。

P.S. 这些工作大部分都是我近几个月在信息流看到的,如有遗漏请留言我。

SayCan、LM-Nav

在今年4月份,Google Robotics团队发布了一篇SayCan的工作[2],输入自然语言指令,让机器人在真实的环境中执行任务。

Robotics的团队还是比较偏RL的,作者的方法是搭建了一个Pipeline:

  1. 把指令变成Prompt,利用LM把指令分解成skill,这些skill都是提前用RL训练好的(比如机械手拿起眼前的物体就是一个skill)

  2. 通过训练好的价值函数,联合LM给出skill的概率分布,执行概率最大的

  3. 执行完第一个skill之后,再拼接成新的prompt生成第二个skill

作者虽然能够在真实环境中执行任务,但在学习效率上还有待提高,每个skill都是单独训练的,只利用了训练好的语言模型来减少学习成本。

随后在7月初,这个团队又推出了一篇LM-Nav的工作[3],更加fancy,给小车一个指令,告诉它往哪走,在哪儿拐,小车就能自己开过去。

不过作者拆解得也更加复杂,总共用了三个模型:

执行的流程是:

  1. VNM对环境进行建模

  2. LLM对命令进行拆解

  3. VLM对环境进行解析

  4. 把1和3结合起来,搜索最佳路径

  5. 用VNM执行

做Robotics的团队还是很强的,做完了就真的能直接在现实里跑起来,不过解决方案的效率离终极目标还有些距离。下面介绍的工作基本都是在虚拟环境中尝试了。

WebShop

WebShop[4]是7月份普林斯顿刚出的工作,作者做了一个简化版的电商APP,学习如何根据用户需求去下单商品。真正放到亚马逊上使用后成功率有27%,跟测试的28%很接近,不够本事就都是「虚拟环境」,比起上篇工作的复杂度还是弱一些。

作者也是通过Pipeline方案实现的:

  1. 对于输入的指令,用seq2seq模型生成搜索query

  2. 因为动作空间比较有限,作者训练了一个选择模型,分别给每个动作进行打分得到S(o,a),从而采样出下一步动作,如下图

这份工作也是很好的尝试,除了真实环境之外,与手机、电脑的交互占据了我们生活中大部分时间,提效的第三方个性化工具也是有些发展前景的。

Gato

Gato[5]是DeepMind在5月份发表的工作,当时还是蛮刷屏的,如果说上面两个工作都仍旧把Embodied AI拆解成多模态理解+RL模型执行,那Gato则是证明了一个模型就可以做所有事情。

作者让一个自回归模型承担所有,包括打游戏(RL)、图像说明、聊天

不过在学习打游戏时,是利用其他SOTA的强化模型直接生成的监督数据。

虽然在数据利用上没有延续预训练的范式,但终于完成了由Pipeline到End2End的突破

VPT

VPT[6]是OpenAI在6月底提出的工作,就是那个在「我的世界」里玩的贼6的agent。

OpenAI延续了以往的风格,自回归 is all you need

最粗暴的想法,就是输入图像,预测下一帧,但下一帧图像怎么映射成动作呢?

于是作者先训练了一个反向模型IDM(inverse dynamics model),输入双向上下文视频,预测当前帧对应的键盘和鼠标动作。训练完了之后给8年长的视频进行标注,这样监督数据就都有了。

于是延续老方法,自回归一把梭,训出了一个LM,根据输入的帧序列,预测未来的动作,就把游戏给玩6了。

这个工作也把图像理解和动作预测结合到了一起,但输入没有指令,复杂程度还差一些。也可能是发布的比较仓促,因为就在这篇工作的前6天,英伟达发布了同样以「我的世界」为基础的MINEDOJO。

MINEDOJO

英伟达在6月中发布的MINEDOJO[7]是我目前个人最喜欢的一篇工作,比起VPT它有两个优点:

  1. 无监督,学习效率更高

  2. 指令作为输入,更加复杂

英伟达更多的还是从RL的角度来思考解决方案,RL最重要的就是奖励函数,它作为监督信号,会影响模型的动作,从而决定是否能采样到有效数据。

于是作者提出了MINECLIP模型,利用CLIP的思路进行预训练,计算视频和文本指令的相似度,作为RL的奖励值,有种生成器-判别器的感觉。

同时,相比起OpenAI整理的8年视频数据,英伟达收集了MineCraft相关的33年的视频、6k+维基百科、百万级别的reddit讨论,全部都开源出来了,真是太良心。

总结

最近业余时间主要关注了一些Embodied AI的工作,同时也给了我其他启发:如果说数据是算法的天花板,那现在的瓶颈,比如推理、常识学习,原因可能在于现有数据的多样性?

视觉、听觉、触觉都是我们认识世界的途径之一,他们之间的联系也会让我们加深理解,把模态叠加起来,让模型不断接近我们的现实世界,或许是突破单模态任务瓶颈的方法。

另外,这个方向也催生了另外一门生意,还记得靠模型和数据起家估值20亿的HuggingFace吗?到了Embodied AI时代,虚拟环境就是必需品了,OpenAI、英伟达、AllenAI都发布了他们的虚拟环境,能否滋生一个新的生态,未来可期。

参考资料

[1]

A Survey of Embodied AI: From Simulators to Research Tasks: https://arxiv.org/abs/2103.04918v5

[2]

Do As I Can, Not As I Say: Grounding Language in Robotic Affordances : https://arxiv.org/abs/2204.01691

[3]

LM-Nav: Robotic Navigation with Large Pre-Trained Models of Language, Vision, and Action: https://arxiv.org/abs/2207.04429

[4]

WebShop: Towards Scalable Real-World Web Interaction with Grounded Language Agents: https://arxiv.org/abs/2207.01206v1

[5]

A Generalist Agent: https://arxiv.org/abs/2205.06175

[6]

Video PreTraining (VPT): Learning to Act by Watching Unlabeled Online Videos: https://arxiv.org/abs/2206.11795

[7]

MINEDOJO: Building Open-Ended Embodied Agents with Internet-Scale Knowledge: https://arxiv.org/abs/2206.08853v1

往期精彩回顾适合初学者入门人工智能的路线及资料下载(图文+视频)机器学习入门系列下载中国大学慕课《机器学习》(黄海广主讲)机器学习及深度学习笔记等资料打印《统计学习方法》的代码复现专辑机器学习交流qq群955171419,加入微信群请扫码

【NLP】下一站,Embodied AI相关推荐

  1. AI英雄 | 专访vivo周围:手机行业的下一站是AI与IoT

    关注网易智能,聚焦AI大事件,读懂下一个大时代! 出品 | 网易智能(公众号 smartman163) 期号 | AI英雄总第103期 作者 | 小羿 "两年后手机将会迎来大变革,手机将变成 ...

  2. 下一站,Embodied AI

    卷友们好,我是rumor. 不知大家有没有注意到(也可能是我敏感了),最近一些大机构不约而同地开始挖新坑了,两个风向标DeepMind和OpenAI,先后发布了Gato和VPT,期望除了图像和文本之外 ...

  3. 12月21日云栖精选夜读:阿里云总裁胡晓明:AI泡沫过后,下一站是“产业AI”...

    摘要: 12月20日,在云栖大会·北京峰会上,阿里云总裁胡晓明阐述了阿里巴巴在人工智能方面的布局,并提出 "AI for Industries"(产业AI)的理念,认为人工智能的发 ...

  4. 阿里云总裁胡晓明:人工智能要去泡沫化,下一站将是“产业AI”

     关注ITValue,查看企业级市场最新鲜.最具价值的报道! 如今无论中美,全球许多国家都对AI充满了憧憬与渴望.人们坚信,一个新的世界即将到来.人工智能是当前人类所面对的最为重要的技术社会变革,可谓 ...

  5. 阿里云总裁胡晓明:AI泡沫过后,下一站是“产业AI”

    原文链接:点击打开链接 摘要: 12月20日,在云栖大会·北京峰会上,阿里云总裁胡晓明阐述了阿里巴巴在人工智能方面的布局,并提出 "AI for Industries"(产业AI) ...

  6. 具身智能综述和应用(Embodied AI)

    什么是具身智能? 目前人工智能的进展,在诸多数据源和数据集(Youtube.Flickr.Facebook).机器计算能力(CPU.GPU.TPU)的加持下,已经在CV.NLP上取得了许多任务(如目标 ...

  7. Embodied AI 具身智能

    大模型的时代的到来,现在的大模型的参数几乎是几何级数的上升. 谷歌和柏林工业大学的团队重磅推出了史上最大视觉语言模型--PaLM-E:An Embodied Multimodal Language M ...

  8. 解读容器的 2020:寻找云原生的下一站

    作者 | 张磊 来源|阿里巴巴云原生公众号 2020 年注定是不凡的.它在阴霾中开始,在惊叹中结束,也让未来变得更加扑朔迷离.那么,容器与云原生的 2020 年呢?你是否记得它是怎样开始的?它又将走向 ...

  9. CodeDay#6 成都站落幕,下一站北京见

    简介:mPaaS 月度小报 June. 本月亮点速览 开发者活动 CodeDay#6 成都站落幕,下一站--7/17,北京 CodeHub#6 | 每日优鲜:AI 赋能新零售 产品上新季 新容器:全新 ...

最新文章

  1. 根号均摊 ---- E. Xenia and Tree(树形dp + 暴力根号均摊)
  2. thinkphp-add方法错误
  3. tcp/ip 协议栈Linux源码分析三 IPv4分片报文重组分析三
  4. BZOJ3743 : [Coci2014]Kamp
  5. javascript放在head和body的区别(w3c建议放在head标签中)
  6. 最年轻图灵奖女性得主:谁说女的数学都比男的差
  7. 公网访问_一文读懂阿里云访问公网的实现方式
  8. Edge使用手机版切换到电脑模式的方法
  9. 洛谷 P1330 封锁阳光大学 二分图染色
  10. matlab thetal,基於matlab的車道和車道線檢測樣例
  11. 为何python不好找工作-为何有人说Python不好找工作?
  12. petshop 中的 cache机制
  13. 【火】【转】楼市三字经·新政杂戏
  14. Redis 官方可视化工具,功能真强大
  15. 华为android9升级包,华为Mate9官方固件ROM刷机包
  16. Arcgis 镶嵌栅格报错999999,且生成x3569458.tif文件
  17. 定位误差的计算机械制造,机械制造技术基础定位误差分析和计算.pdf
  18. AI如何识别西瓜和冬瓜?
  19. 计算机软件知识产权的范围,知识产权包括的范围是什么
  20. 如何划分IP地址及范围

热门文章

  1. 错误代码:0x800704cf 不能访问网络位置(win7 连不上smb了)
  2. 数字硬盘录像机接入GB28181流媒体服务(LiveGBS)设备录像实时查询
  3. 【调参记录】基于CNN对5类花卉植物数据一步步提升分类准确率
  4. 城市的夜空有着雾霾...
  5. “Hello World!”团队第六周的第五次会议
  6. 论《兄弟连思想和李文凯语录联想到国人重男轻女观念与中国贫富关系》
  7. 交换机密码忘了,肿么办?
  8. python中逻辑运算_【多选题】Python 中用于表示逻辑与、逻辑或、逻辑非运算的关键字分别是( ) A. and B. add C. or D. not...
  9. 关于那些排序算法的排序趟数与原始状态无关的
  10. 【虹科】激光雷达安全系统:让世界更安全