目录

一、“不会开发游戏的AI工具制作者不是好博士”

二、ControlNet出现的背景

三、什么是ControlNet?

四、「神采 Prome AI」的诞生

五、总结

去年DALLE2,Stable Diffusion等文-图底层大模型发布带动了应用层的发展,出现了一大批爆款产品,被认为是”AI绘画元年“。目光再转到今年,在隔壁ChatGPT风头一时无二的时候,ControlNet的出现再次把大家的注意力移到了AI绘画生成上面。

一、“不会开发游戏的AI工具制作者不是好博士”

在科普ControlNet之前,有必要先介绍一下他的作者。目前正在斯坦福读博的中国人张吕敏(Lvmin Zhang),2021年才毕业于苏州大学,并且在本科期间就发表了多篇ICCV,CVPR,ECCV等顶会著作。这些论文高度与绘画相关,他的Style2Paints甚至已经更新到第五版了。

很少人知道,他还在Unity上做了一款名为 YGOPro2 的TCG游戏,可见每一个学霸都是时间管理大师。

二、ControlNet出现的背景

时间再回到去年各种模型诞生初期,那时候图像生成只需要用户简单地输入文本(Prompts)就可以实现,这让普通人操作的难度大大降低。尤其是Stable Diffusion的出现,直接部署在家用电脑的同时又很快生成高质量图片。

但是伴随着普通用户的尝试,种种问题也随之暴露出来。首先由于扩散模型本身diversity很强,导致生成的图像往往不受控制(可控性低),常常无法满足需求,需要用户在三四十张生成的图片中挑选一张可用的(废片率高)。

提示词:一张精美的图片需要通过大量的关键词拼凑(多达四五十个单词),才呈现出一个相对比较好的表现形式:

对于刚接触AI绘画的普通人来说找到合适的关键词是面临的首要问题,其次很多我们常见的关键词如:建筑,宏大/精美等远远不如渲染配置参数词:“4K超清”,“高质量”,“阴影效果”表现效果好。可见单纯的关键词控制无法满足用户对精美细节的需要。而在成图的时候原生Stable-Diffusion 模型的瑕疵则更明显,比如著名的“AI不会画手”,“美少女吃面梗”都反映出大模型在手脚方面的细节表现不好。针对这些问题除了避免出现手脚,进行二次AI创作/手动修改似乎也没什么好的办法(加入数据集针对性训练当然也是一种办法,但是一方面对于数据量的要求会很大大提升,另一方面还是没有很好地解决黑盒问题)。

幸运的,就在不久之前,ControlNet发布了。

三、什么是ControlNet?

ControlNet是一种神经网络结构,通过添加额外的条件来控制扩散模型。

ControlNet将网络结构划分为:1. 不可训练(locked)部分保留了stable-diffusion模型的原始数据和模型自身的学习能力。2. 可训练(trainable)部分通过额外的输入针对可控的部分进行学习,本质是端对端的训练。简单来说就是通过一些额外条件生成受控图像-在Stable Diffusion模型中添加与UNet结构类似的ControlNet额外条件信息,映射进参数固定的模型中,完成可控条件生成。

众所周知,AIGC的可控性是它进入实际生产最关键的一环。有了ControlNet的帮助我们可以直接提取建筑的构图,人物的姿势,画面的深度和语义信息等等。在很大程度上我们不需要频繁更换提示词来碰运气,尝试一次次开盲盒的操作了。

ControlNet把每一种不同类别的输入分别训练了模型,目前有8个:Canny,Depth,HED,MLSD,Normal,Openpose,Scribble,Seg。这些可控条件大致可以分为三类,下面我们将一一展开介绍:

  • 姿势识别

姿势识别,用于人物动作,提取人体姿势的骨架特征(posture skeleton)。姿势提取的效果图很像小时候flash上的小游戏“火柴人打斗”,有了这个就不用去网上寻找各种英语姿势tag,而是可以直接输入一张姿势图。并且这个模型还可以生成多人姿势(偶尔会翻车,但是之前靠提示词是完全无法生成多人动作的)

这个功能对于人物设计和动画非常有用,可能会用于影视和游戏行业,比如动作捕捉和捏脸系统。

边缘检测,通过从原始图片中提取线稿,来生成同样构图的画面

跟canny类似,适合重新上色和风格化

针对涂鸦

语义分割识别(区块标注,适合大片块状草图上色)

  • 线段识别,适用于建筑场景

深度检测,提取深度图

通过提取原始图片中的深度信息,生成具有深度图,再生成具有同样表面几何形状的图片。甚至可以利用3D建模软件搭建简单的场景,再交给ControlNet去渲染。

模型识别,适用于建模,类似深度图,比深度模型对于细节的保留更加精确,用于法线贴图。

靠着以上八种模型就可以用其他Input Condition(语义图,关键点图,深度图等单一维度的特征)来辅助文字提示词来生成可控的输出图片了。比起仅仅依靠提示词的方法,ControlNet虽然多花了点时间,但要知道有些图片靠直接点击按钮的方式的话,不论roll多少次都是搞不出来的。

四、「神采 Prome AI」的诞生

皮卡智能一直在AIGC的应用中无限探索,去年AI绘画爆火时,我们创造了「AI艺术创作」平台,用户可以用中文生成AI绘画和使用「图生图」的功能。

与去年上线的「AI艺术创作」不同,这款新产品主要面向B端用户,ControlNet的出现,让我们将AI绘画从玩具变成工具。神采PromeAI拥有强大的人工智能驱动设计助手和广泛可控的AIGC(C-AIGC)模型风格库,使你能够轻松地创造出令人惊叹的图形、视频和动画。例如边缘和人物姿态,甚至可以通过线稿控制来完美解决AIGC经常受到诟病的“手指”问题。

该产品具有以下功能:可以直接将涂鸦和照片转化为插画,自动识别人物姿势并生成插画;将线稿转化为完整的上色稿,并提供多种配色方案;自动识别图片景深信息以生成具有相同景深结构的图片,识别建筑及室内图片线段并生成新的设计方案;读取图片法线信息以辅助快速建模,利用图片语义分割识别生成具有相同构图和内容的不同风格图片。

五、总结

就在AI绘画刚出来那会儿,就有人说ai无法生成不同图层,或者是线稿/中间图,不会取代人工绘画。不提后者,就说现在,不管是文生图(直接生成线稿),还是图生图(ControlNet,从图片提取线稿),哪怕把渲染过程制作成视频也是轻而易举的。每个技术问题都会变成下一次的突破,在大模型解决画风,Lora解决角色,ControlNet解决了输出内容之后,手脚以及其他关键点优化很快也会解决了。

从模型本身上看,不难想象下一次技术的迭代一定会在可控性上有更大的提升,因为一张图像能提取的特征无非就是画风、深度,光照,姿势,语义等。从应用方面看,既然ControlNet能标记骨骼来画人体,说不定之后也可以用于医学,建筑,也能标记车站画轨道。

 在各个细分领域的公司带着他们的ai工具“下沉”之后,他们已经发现了越来越多可以做的事情。今年才过了三个月,无法想象在接下来的九个月AIGC这条赛道还会带给我们哪些更惊奇的变化。

ControlNet多重控制功能推出,AI绘画进入导演时代!相关推荐

  1. AI绘画软件排行榜,手机AI绘画排名推荐

    AI绘画技术近年来成为数字艺术的新热点.随着人工智能技术的不断发展和普及,越来越多的网站开始推出AI绘画功能,在保证人工智能算法的同时,也不断丰富绘画功能和操作体验.下面就为大家盘点一下目前最受欢迎的 ...

  2. 美图AI绘画机器人上线,小姐姐们,新一轮头像可以换起了

    本文来自AI新媒体量子位(QbitAI) 你是不是也想要一张插画风格的头像?又要像你,又要插画风格.彩绘色系? OK,美图AI绘画机器人Andy上线了. 之前美图专门给Angelababy打造的&qu ...

  3. 人工智能前沿——6款AI绘画生成工具

    >>>深度学习Tricks,第一时间送达<<< 目录 一.[前言] 二.[6款AI绘画生成工具] 1.DeepAI 2.NightCafe 3.Deep Dream ...

  4. ControlNet star量破万!2023年,AI绘画杀疯了?

    来源:机器之心 从骑马的宇航员到三次元小姐姐,在不到一年的时间里,AI 绘画似乎已经取得了革命性的进展. 这个「骑马的宇航员」由 OpenAI 2022 年 4 月推出的文生图模型 DALL・E 2 ...

  5. AI绘画 新多功能controlnet插件,草图上色,动作骨架提取等功能,安装及下载教程

    AI绘画 新多功能controlnet插件,草图上色,动作骨架提取等功能,安装及下载教程 - 哔哩哔哩 原文: 功能很多,都非常实用,文生图添加人物动作,线稿上色,景深等 个人经验,很菜不懂电脑,只做 ...

  6. ControlNet精准控制AI绘画教程

    ControlNet精准控制AI绘画教程 AI绘画相信大家都已经不陌生了,虽然AI绘画出图很方便,但是要让其生成一副自己满意的图,还是需要费一番心思,有时候多次调整关键词就是生成不了自己想要的画面,这 ...

  7. (十六) AIGC、AI绘画、SD-WebUI、本地部署、Stable-Diffusion本地模型、最新Controlnet扩展

    (十六) AIGC.AI绘画.SD-WebUI.本地部署.Stable-Diffusion本地模型.最新Controlnet扩展 1.简介 AI绘画的工具网站很多,大部分收费/限制数量,而且速度很慢, ...

  8. AI - AI绘画的精准控图(ControlNet)

    一.介绍 在上一篇 <AI - stable-diffusion(AI 绘画)的搭建与使用> 中, 介绍了 SD 的环境搭建与使用,搭配各种特色模型文件,SD 的文生图功能就可以根据我们输 ...

  9. 争议不断的AI绘画,如今成为了顶流?

    今年以来,AIGC迅速崛起. 所谓AIGC,即AI-Generated Content,指的是利用人工智能来生成内容,被认为是继专业产出内容(PGC).用户产出内容(UGC)后的新型内容创作方式.不久 ...

最新文章

  1. mysql 快速生成百万条测试数据
  2. python 超时重试方法
  3. Individual Project
  4. Classes in JScript – Part III 类的继承与封装
  5. BZOJ1861: [Zjoi2006]Book 书架
  6. Redis(三)、支持数据类型及常用操作命令
  7. editplus来编写SQL
  8. c语言编译器储存有什么用,C编译器怎么样对内存划分和使用
  9. web开发中遇到的#65279导致网页开头空白
  10. HDU1010【走迷宫】Tempter of the Bone-------2015年1月26日
  11. JSP九大内置对象以及作用
  12. 高速公路坐标高程计算软件3.6版本发布
  13. php是一种通用开源,caozha-admin(PHP网站后台管理框架)
  14. 外贸营销网站系统开发功能案例制作
  15. html onclick点击事件失效,HTML onfocus,onclick事件不起作用
  16. 用户态协议栈之tcp/ip设计
  17. ubuntu 20.04 ssh “Key exchange failed“
  18. EmguCV学习(三)
  19. maya2018怎样导入图片
  20. python爬虫requests和bs4引入

热门文章

  1. 树莓派4b部署LNMP+Tor,搭建在Dark web上的网站
  2. [Python系列-12]:人工智能 - 数学基础 -2- 数组元素的算术运算
  3. 如何查找计算机操作系统序列号,如何从安装光盘找出操作系统的序列号?
  4. 哈工大2020秋算法设计与分析大作业(一)
  5. manjaro远程linux,manjaro服务器的配置
  6. 如何快速给图片加框?
  7. SketchUp Pro 2023 for Mac(草图大师) v23.0.396中文特别版
  8. [教你一招]设置Linux下中文显示
  9. PMP 认证考试流程
  10. 采购流程如何“流”起来了?