本文经AI新媒体量子位(公众号ID:qbitai)授权转载,转载请联系出处

本文约1500字,建议阅读5分钟

本文带你了解 Make-A-Video 用“嘴”做视频。

画家执笔在画布上戳戳点点,形成手绘作品独有的笔触。

你以为这是哪部纪录片的画面?

No,No,No!

视频里的每一帧,都是AI生成的。

还是你告诉它,来段“画笔在画布上的特写”,它就能直接整出画面的那种。

不仅能无中生画笔,按着马头喝水也不是不可以。

同样是一句“马儿喝水”,这只AI就抛出了这样的画面:

好家伙,这是以后拍视频真能全靠一张嘴的节奏啊……

不错,那厢一句话让AI画画的Text to Image正搞得风生水起,这厢Meta AI的研究人员又双叒给生成AI来了个超进化。

这回是真能“用嘴做视频”了:

AI名为Make-A-Video,直接从DALL·E、Stable Diffusion搞火的静态生成飞升动态。

给它几个单词或几行文字,就能生成这个世界上其实并不存在的视频画面,掌握的风格还很多元。

不仅纪录片风格能hold住,整点科幻效果也没啥问题。

两种风格混合一下,机器人在时代广场蹦迪的画面好像也没啥违和感。

文艺小清新的动画风格,看样子Make-A-Video也把握住了。

这么一波操作下来,那真是把不少网友都看懵了,连评论都简化到了三个字母:

而大佬LeCun则意味深长地表示:该来的总是会来的。

毕竟一句话生成视频这事儿,之前就有不少业内人士觉得“快了快了”。只不过Meta这一手,确实有点神速:

比我想象中快了9个月。

甚至还有人表示:我已经有点适应不了AI的进化速度了……

文本图像生成模型超进化版

你可能会觉得Make-A-Video是个视频版的DALL·E。

实际上,差不多就是这么回事儿。

前面提到,Make-A-Video是文本图像生成(T2I)模型的超进化,那是因为这个AI工作的第一步,其实还是依靠文本生成图像。

从数据的角度来说,就是DALL·E等静态图像生成模型的训练数据,是成对的文本-图像数据。

而Make-A-Video虽然最终生成的是视频,但并没有专门用成对的文本-视频数据训练,而是依然靠文本-图像对数据,来让AI学会根据文字复现画面。

视频数据当然也有涉及,但主要是使用单独的视频片段来教给AI真实世界的运动方式。

具体到模型架构上,Make-A-Video主要由三部分组成:

  • 文本图像生成模型P

  • 时空卷积层和注意力层

  • 用于提高帧率的帧插值网络和两个用来提升画质的超分网络

整个模型的工作过程是酱婶的:

首先,根据输入文本生成图像嵌入。

然后,解码器Dt生成16帧64×64的RGB图像。

插值网络↑F会对初步结果进行插值,以达到理想帧率。

接着,第一重超分网络会将画面的分辨率提高到256×256。第二重超分网络则继续优化,将画质进一步提升至768×768。

基于这样的原理,Make-A-Video不仅能根据文字生成视频,还具备了以下几种能力。

将静态图像转成视频:

根据前后两张图片生成一段视频:

根据原视频生成新视频:

刷新文本视频生成模型SOTA

其实,Meta的Make-A-Video并不是文本生成视频(T2V)的首次尝试。

比如,清华大学和智源在今年早些时候就推出了他们自研的“一句话生成视频”AI:CogVideo,而且这是目前唯一一个开源的T2V模型。

更早之前,GODIVA和微软的“女娲”也都实现过根据文字描述生成视频。

不过这一次,Make-A-Video在生成质量上有明显的提升。

在MSR-VTT数据集上的实验结果显示,在FID(13.17)和CLIPSIM(0.3049)两项指标上,Make-A-Video都大幅刷新了SOTA。

此外,Meta AI的团队还使用了Imagen的DrawBench,进行人为主观评估。

他们邀请测试者亲身体验Make-A-Video,主观评估视频与文本之间的逻辑对应关系。

结果显示,Make-A-Video在质量和忠实度上都优于其他两种方法。

One More Thing

有意思的是,Meta发布新AI的同时,似乎也拉开了T2V模型竞速的序幕。

Stable Diffusion的母公司StabilityAI就坐不住了,创始人兼CEO Emad放话道:

我们将发布一个比Make-A-Video更好的模型,大家都能用的那种!

而就在前几天,ICLR网站上也出现了一篇相关论文Phenaki。

生成效果是这样的:

对了,虽然Make-A-Video尚未公开,但Meta AI官方也表示,准备推出一个Demo让大家可以实际上手体验,感兴趣的小伙伴可以蹲一波了~

论文地址:
https://makeavideo.studio/Make-A-Video.pdf
参考链接:
[1]https://ai.facebook.com/blog/generative-ai-text-to-video/
[2]https://twitter.com/boztank/status/1575541759009964032
[3]https://twitter.com/ylecun/status/1575497338252304384
[4]https://www.theverge.com/2022/9/29/23378210/meta-text-to-video-ai-generation-make-a-video-model-dall-e
[5]https://phenaki.video

编辑:于腾凯

校对:林亦霖

真·拿嘴做视频!Meta「AI导演」一句话搞定视频素材,网友:我已跟不上AI发展速度...相关推荐

  1. 一句话就能魔改视频主角,谷歌新「AI导演」惊呆网友:这画质也太赞了

    Alex 发自 凹非寺 量子位 | 公众号 QbitAI 谷歌整出了个新"AI导演",一句话甚至能把视频主角给换了. 你看,青青草地上,一只小熊正在跳舞. 难道现在的熊都这么有艺术 ...

  2. python做excel麻烦_高效办公必备:别人通宵做的 Excel,我用Python 半小时搞定!

    原标题:高效办公必备:别人通宵做的 Excel,我用Python 半小时搞定! 最近经常听到周围的人抱怨:"工作忙,在加班--" 不知不觉,当代职场人早就被"996&qu ...

  3. 最强绘图AI:一文搞定Midjourney(附送咒语)

    最强绘图AI:一文搞定Midjourney(附送咒语) Midjourney官网:https://www.midjourney.com 简介 Midjourney是目前效果最棒的AI绘图工具.访问Mi ...

  4. 这就是视频列表二维码,一个二维码搞定视频列表播放

    文章原创  转载请注明出处来自CSDN 2020-1-5  //  我是视频砖家,只关注视频应用. 我以前写视频二维码的教程,今天再上一个原创的视频列表二维码教程吧 // 视频列表二维码教程基于酷播云 ...

  5. python从视频中提取音频_提取视频中的音频——python三行程序搞定!

    原标题:提取视频中的音频--python三行程序搞定! 写在开头 身处数据爆炸增长的时代,各种各样的数据都飞速增长,视频数据也不例外.我们可以使用 python 来提取视频中的音频,而这仅仅需要安装一 ...

  6. 促销海报模板|经典蓝的带着「节日促销」来搞事情了!

    经典蓝(Classic Blue,19-4052)无疑是今年的主角色彩.其实早在 PANTONE 发声之前,蓝色在闻风而动的潮流界里就已经紧锣密鼓地铺排开来! 看看这些经典的蓝色系促销海报是如何设计的 ...

  7. 类似爱美刻 右糖 轻剪辑 捷映 秀展网 秀多多 来画 创视网 传影 影大师 闪剪源码 技术源头 二次开发 提供源码 逗拍 趣推 飞推 美册 搞定视频 简影 剪影 爱字幕 幸福相册 八角星

    需要源码的下面评论 介绍 类似爱美刻 右糖 轻剪辑 捷映 秀展网 秀多多 来画 创视网 传影 影大师 闪剪源码 技术源头 二次开发 提供源码. 类似 逗拍 趣推 飞推 美册 搞定视频 简影 剪影 爱字 ...

  8. Meta祭出元宇宙「阿拉丁神灯」!LeCun称世界模型将带来像人一样的AI

      视学算法报道   编辑:桃子 好困 袁榭 拉燕 [新智元导读]2022年2月24日凌晨,在Meta AI实验室讨论会上,小扎亲自带队公布了多项技术内容:语音生成元宇宙场景的Builder Bot. ...

  9. AI版「女娲」来了!文字生成图像、视频,8类任务一个模型搞定

    来源丨机器之心 作者丨陈萍.小舟 AI会是未来的「造物者」吗? 近来,视觉合成任务备受关注.几天前英伟达的 GauGAN 刚刚上新了 2.0 版本,现在一个新视觉合成模型 Nüwa(女娲)也火了. 相 ...

最新文章

  1. R语言dataframe计算满足筛选条件的行的个数(筛选满足条件的数据行并计数):类似于excel的countif函数
  2. C++中 char *s 和 char s[] 的区别
  3. java 并发 面试题_阿里面试官总结10个经典技术题:Java多线程与并发面试题
  4. 自己封装的ASP.NET的SQLITE数据库的操作类
  5. emqtt 试用(七)追踪
  6. iis7.5+.net4.5 报404错误
  7. CentOS7下 libvirt+virt-manager 虚拟机迁移配置及错误处理
  8. 基于深度学习的目标检测
  9. curl模拟登陆 php实例,php 使用curl模拟登录人人(校内)网的简单实例
  10. Cloudera Manager 6.2.1安装
  11. MATLAB颜色的使用
  12. mysql从创库到查询基本命令
  13. js:使用nodejs为页面传递mysql中的数据
  14. 东晋琴家、雕塑家、画家、哲学家戴逵
  15. C++常用 math 函数
  16. 面试中常见线程的50个问题
  17. 猫狗二分类实战(PyTorch)
  18. @Inherited 的作用
  19. UE4 通过按键升降电梯
  20. 【原创】新韭菜日记58--20190618 很久没写了,因为套牢,因为没内容可写

热门文章

  1. java 复杂表头excel导出合并单元格
  2. 智能风控决策引擎系统架构设计与开发实践
  3. 飞机大战python介绍_用 Python 写一个经典飞机大战
  4. JSON 语法之JSON 布尔值
  5. Echarts定制化组件展示网站(包括3d饼环图,3d柱状图,三维柱状图,水滴图)
  6. QLabel实现双击事件
  7. java overide_java中的@Override标签,小细节大作用
  8. 面向对象解决-------求圆柱体的体积
  9. 查看cpu位数 linux,【转】linux好windows下查看CPU位数、核数、个数
  10. 1069 微博转发抽奖 (极简)