7 Papers | 超越GPT 3.5的小模型；对ChatGPT摸底考试

关注并星标

从此不迷路

计算机视觉研究院

公众号ID｜ComputerVisionGzq

学习群｜扫码在主页获取加入方式

计算机视觉研究院专栏

作者：Edison_G

本周论文包括2D 图像脑补 3D 人体；亚马逊发布超越 GPT 3.5 的小模型等研究。

转自《机器之心》

Structure and Content-Guided Video Synthesis with Diffusion Models
EVA3D: Compositional 3D Human Generation from 2D Image Collections
Multimodal Chain-of-Thought Reasoning in Language Models
Is ChatGPT a General-Purpose Natural Language Processing Task Solver?
Toolformer: Language Models Can Teach Themselves to Use Tools
Looped Transformers as Programmable Computers
AudioLDM: Text-to-Audio Generation with Latent Diffusion Models

论文 1：Structure and Content-Guided Video Synthesis with Diffusion Models

作者：Patrick Esser 、 Johnathan Chiu 等
论文地址：https://arxiv.org/pdf/2302.03011.pdf

摘要：近日，曾参与创建 Stable Diffusion 的 Runway 公司推出了一个新的人工智能模型「Gen-1」，该模型通过应用文本 prompt 或参考图像指定的任何风格，可将现有视频转化为新视频。

具体来说，Gen-1 支持几种编辑模式：

1、风格化。将任何图像或 prompt 的风格转移到视频的每一帧。

2、故事板。将模型变成完全风格化和动画的渲染。

3、遮罩。分离视频中的主题并使用简单的文本 prompt 对其进行修改。

4、渲染。通过应用输入图像或 prompt，将无纹理渲染变成逼真的输出。

5、定制化。通过自定义模型以获得更高保真度的结果，释放 Gen-1 的全部功能。

在该公司官方网站上发布的 demo 中，展示了 Gen-1 如何丝滑地更改视频风格，来看几个示例。

比如将「街道上的人」变成「粘土木偶」，只需要一行 prompt：

推荐：从文本生成图像，再到给视频加特效，下一个 AIGC 爆发点要出现了吗？

论文 2：EVA3D: Compositional 3D Human Generation from 2D Image Collections

作者：Fangzhou Hong 等
论文地址：https://arxiv.org/abs/2210.04888

摘要：在 ICLR 2023 上，南洋理工大学 - 商汤科技联合研究中心 S-Lab 团队提出了首个从二维图像集合中学习高分辨率三维人体生成的方法 EVA3D。得益于 NeRF 提供的可微渲染，近期的三维生成模型已经在静止物体上达到了很惊艳的效果。但是在人体这种更加复杂且可形变的类别上，三维生成依旧有很大的挑战。本文提出了一个高效的组合的人体 NeRF 表达，实现了高分辨率（512x256）的三维人体生成，并且没有使用超分模型。EVA3D 在四个大型人体数据集上均大幅超越了已有方案，代码已开源。

推荐：2D 图像脑补 3D 人体，衣服随便搭，还能改动作。

论文 3：Multimodal Chain-of-Thought Reasoning in Language Models

作者：Zhuosheng Zhang 等
论文地址：https://arxiv.org/abs/2302.00923

摘要：众所周知，ChatGPT 是在 GPT-3.5 系列模型的基础上微调而来的，我们看到很多研究也在紧随其后紧追慢赶，但是，与 ChatGPT 相比，他们的新研究效果到底有多好？近日，亚马逊发布的一篇论文提出了包含视觉特征的 Multimodal-CoT，该架构在参数量小于 10 亿的情况下，在 ScienceQA 基准测试中，比 GPT-3.5 高出 16 个百分点 (75.17%→91.68%)，甚至超过了许多人类。

下图为 Multimodal CoT 两阶段过程：使用文本（问题 + 上下文）和视觉特征来产生逻辑依据。

推荐：超越 GPT 3.5 的小模型来了！

论文 4：Is ChatGPT a General-Purpose Natural Language Processing Task Solver?

作者：Chengwei Qin 等
论文地址：https://arxiv.org/pdf/2302.06476.pdf

摘要：ChatGPT 真的是「通才」吗？单拎出哪项能力都能完胜其他模型吗？哪些任务是 ChatGPT 擅长的，哪些不是？为了系统地探索这些问题，南洋理工大学博士生 Chengwei Qin、斯坦福大学计算机科学助理教授杨笛一等人进行了大量实验。

该研究主要比较了 ChatGPT 和 GPT-3.5 (textdavinci-003) 在不同任务下的 zero-shot 学习性能。

推荐：ChatGPT 真的是「通才」吗？杨笛一等人给它来了个摸底考试。

论文 5：Toolformer: Language Models Can Teach Themselves to Use Tools

作者：Timo Schick 等
论文地址：https://arxiv.org/pdf/2302.04761v1.pdf

摘要：在自然语言处理任务中，大型语言模型在零样本和少样本学习方面取得了令人印象深刻的结果。然而，所有模型都存在固有的局限性，往往只能通过进一步扩展来部分解决。具体来讲，模型的局限性包括无法访问最新信息、会对事实产生「信息幻觉」、低资源语言理解困难、缺乏进行精确计算的数学技能等等。

解决这些问题的一种简单方法就是给模型配备外部工具，如搜索引擎、计算器或日历。然而，现有方法通常依赖于大量的人工注释，或将工具的使用限制在特定的任务设置下，使得语言模型与外部工具的结合使用难以推广。为了打破这种瓶颈，近期 Meta AI 提出了一种称为 Toolformer 的新方法，使得语言模型学会「使用」各种外部工具。如下为 Toolformer 的典型预测。

推荐：语言模型自己学会用搜索引擎了？Meta AI 提出 API 调用自监督学习方法 Toolformer。

论文 6：Looped Transformers as Programmable Computers

作者：Angeliki Giannou 等
论文地址：https://arxiv.org/pdf/2301.13196.pdf

摘要：在本文中，作者展示了 Transformer 网络可以通过使用特定权重对它们进行硬编码并将它们置于一个循环中来模拟复杂的算法和程序。作者通过对 Attention 进行逆向工程来模拟基本计算块来做到这一点，例如对输入序列的编辑操作、非线性函数、函数调用、程序计数器和条件分支。作者的论文证明了使用单个循环或递归将 Transformer 的输出序列连接回其输入的重要性，从而避免对深度模型的需要。如下为用作实现小型指令集计算机构建块的三个 Transformer 块的示意图。

推荐：作者展示了 Transformer 网络可以通过使用特定权重对它们进行硬编码并将它们置于一个循环中来模拟复杂的算法和程序。

论文 7：AudioLDM: Text-to-Audio Generation with Latent Diffusion Models

作者：Haohe Liu 等
论文地址：https://arxiv.org/abs/2301.12503

摘要：给出一段文字，人工智能就可以生成音乐，语音，各种音效，甚至是想象的声音，比如黑洞和激光枪。最近由英国萨里大学和帝国理工学院联合推出的 AudioLDM，在发布之后迅速火遍国外，一周内在推特上收获了近 300 次的转发和 1500 次的点赞。在模型开源第二天，AudioLDM 就冲上了 Hugging Face 热搜榜第一名，并在一周内进入了 Hugging Face 最受喜欢的前 40 名应用榜单（共约 25000），也迅速出现了很多基于 AudioLDM 的衍生工作。

推荐：开源模型、单卡训练，带你了解爆火的文本指导音频生成技术 AudioLDM。

转载请联系本公众号获得授权

计算机视觉研究院学习群等你加入！

计算机视觉研究院主要涉及深度学习领域，主要致力于人脸检测、人脸识别，多目标检测、目标跟踪、图像分割等研究方向。研究院接下来会不断分享最新的论文算法新框架，我们这次改革不同点就是，我们要着重”研究“。之后我们会针对相应领域分享实践过程，让大家真正体会摆脱理论的真实场景，培养爱动手编程爱动脑思考的习惯！

扫码关注

计算机视觉研究院

公众号ID｜ComputerVisionGzq

学习群｜扫码在主页获取加入方式

往期推荐

7 Papers | 超越GPT 3.5的小模型；对ChatGPT摸底考试相关推荐

12层的bert参数量_Bort: 亚马逊最新4层小模型，效果超越BERT-large
本文首发于微信公众号「李rumor」最近一年多,BERT的瘦身方法层出不穷,主要围绕着三个方向:蒸馏.剪枝.量化.也有不少同学直接砍掉BERT的一些层再精调也能达到不错的效果.我就是"懒惰 ...

谷歌量子霸权论文；13项NLP任务夺冠的小模型ALBERT
机器之心整理参与:一鸣.杜伟本周重要论文很多,特别是谷歌的研究非常耀眼,有量子霸权论文和参数小 BERT 很多但性能超 XLNe 的模型 ALBERTt.此外还有北大等的论文. 目录: Gate ...

LLM推理提速2.8倍，CMU提出投机式推理引擎，小模型撬动大模型高效推理
©作者 | 机器之心编辑部来源 | 机器之心近日,来自卡耐基梅隆大学(CMU)的 Catalyst Group 团队发布了一款「投机式推理」引擎 SpecInfer,可以借助轻量化的小模型来帮助大 ...

中文预训练ALBERT模型来了：小模型登顶GLUE，Base版模型小10倍、速度快1倍
(图片由AI科技大本营付费下载自视觉中国) 作者 | 徐亮(实在智能算法专家) 来源 | AINLP(ID:nlpjob) 谷歌ALBERT论文刚刚出炉一周,中文预训练ALBERT模型来了,感兴趣的 ...

单张GPU搞定GPT-3超参数！先训练小模型，再“一键迁移” | 已开源
点击上方"视学算法",选择加"星标"或"置顶" 重磅干货,第一时间送达丰色发自凹非寺量子位 | 公众号 QbitAI "一 ...

NLP与ChatGPT的碰撞：大模型和小模型联合发力
ChatGPT真的太火了!作为NLP的终结者,ChatGPT又会与NLP发生怎么样的碰撞?大模型可以替代小模型吗?NLP又将何去何从?今天给大家推荐一本好书:<基于NLP的内容理解>! 文 ...

Mars3D(含Cesium)数据及服务篇：单体小模型转为glTF格式
glTF是用于小场景的三维模型. Cesium支持包含关键帧(key-frame)动画.骨骼(skinning)动画的glTF格式的三维模型,并且支持模型节点(node)的拾取. glTF是 Khr ...

Mars3D开发基础学习:glTF小模型
glTF全称是 Graphics Language Transmission Format (图形语言传输格式),是一种针对GL(WebGL,OpenGL ES以及OpenGL)接口的运行时资产传递格 ...

KNN和K-means的区别为什么KNN算法里的K越小模型会越复杂？过拟合和欠拟合的偏差和方差问题
这里将这三个问题在一起讲,仅仅是因为自己觉得有些联系,而且正好自己概念有些模糊. 1. KNN 和 K-means的区别:参考https://www.cnblogs.com/nucdy/p/63491 ...

最新文章

建立双链表（头插法）

OpenCV-Python：实现人脸、人眼、嘴巴识别

五步让你玩转CocoaPods

分析及解决SQLServer的死锁问题

12星座男生最吃哪一套

could not create the java virtual machine启动eclipse报错

训练日志 2018.8.29

java电脑上运行_java-在本地计算机上运行的Web应用程序

rtthread pwm设备控制led小灯亮度

pythonutf-8是不是二进制_python集合、字符编码、bytes与二进制

微软sql服务器开机自启,使用 SQL Server 服务启动选项

win8系统如何设置打印服务器,Win8系统怎么安装网络打印机|Win8系统安装网络打印机的方法...

XML Essential Training XML基本培训 Lynda课程中文字幕

华为转正答辩ppt范文_华为转正答辩ppt模板下载-精选版.ppt

如何应用计算机键盘截图,键盘怎么截图快捷键_键盘上截屏是哪个键-win7之家

模拟登陆广工统一认证系统

我的世界 Unity3D MineCraft 用Unity3D制作类似MineCraft我的世界的游戏洞穴算是完成了

大学物理（Ⅱ）公式整理

php 开发常用英语单词

微带线等效电感仿真与设计

热门文章

工作簿无法保存html,将Excel工作簿保存为交互式Web页面文件的方法

python输入10个数、找出对称数_Python入门100道习题（7）——找对称数

让element-ui的el-upload组件文件列表中文件图标自定义显示

MessageBox和AfxMessageBox

001统一建模语言和UML类图画法

【像黑客一样写博客之九】微博访客

Azure Kinect DK 在设备管理器找不到此设备

HIVE安装部署（一）

【web学习之ideaIU】 IntelliJ IDEA - 学习

Pytho基础第三章