开源免费的Stable Diffusion-XL开启公测!效果可媲美Midjourney水平!
编|LRS
源|新智元
开源、免费的Stable Diffusion就能达到Midjourney水平!
自从Midjourney发布v5之后,在生成图像的人物真实程度、手指细节等方面都有了显著改善,并且在prompt理解的准确性、审美多样性和语言理解方面也都取得了进步。
相比之下,Stable Diffusion虽然免费、开源,但每次都要写一大长串的prompt,想生成高质量的图像全靠多次抽卡。
最近Stability AI的官宣,正在研发的Stable Diffusion XL开始面向公众测试,目前可以在Clipdrop平台免费试用。
试用链接:https://clipdrop.co/stable-diffusion
Stability AI的创始人兼首席执行官Emad Mostaque表示,目前该模型仍然处于训练阶段,等参数稳定后将会开源;SD-XL在「握手」等图像细节方面会表现更好,几乎完全可控。
Stable Diffusion XL也并不是最终发布版的名字,并且也并非是v3,因为SD-XL的架构和SD-v2系列的模型架构非常相似。
下面几张SD-XL官方发布的例图,可以看出图像的质量已经非常能打了。
不过有时候less并不代表more,有网友认为SD-XL为了摆脱「糟糕的品味」,设定了太多的规则,定制化空间越来越小,不符合大多数人的喜好。目前v1.5的Stable Diffusion仍然是社区内最流行的基座模型。
网友表示希望新版SD能够和SD 2.1版本的嵌入、hypernetworkds和Lora模型保持兼容,再从零开始重训的话就太难受了。
也有网友认为,SD-XL的表现和civit网站上网友分享的模型差不多,新模型的效果也并不是特别惊艳,也就是平均水平。
SD-XL:开源版Midjourney
关于Stable Diffusion XL模型的具体信息,官方并没有透露太多,目前只知道是一个与v2模型架构相似、但规模和参数量更大的模型。
SD-v2.1包括9亿参数,SD-XL大约有23亿参数,Emad表示正式版可能会额外发布一个更小的蒸馏版本。
SD-XL相比之前版本的改进如下:
使用较短的描述性prompt即可生成高质量图像
可以生成更贴合prompt的图像
图像中的人体结构更合理
与 v2.1和 v1.5版本(程度较轻)相比,SD-XL生成的图片更符合大众审美
负面提示词(negative prompt)是可选项
生成的肖像图更逼真
图像中的文本更清晰
需要注意的是,SD-XL可能与之前版本的插件不兼容。
清晰可读的文字
在v1系列和v2.1版本的Stable Diffusion模型中,并不具备在图片中生成可读文本的能力。
虽然SD-XL生成的文本信息并不总是准确,但确实得到了巨大的提升。
一个女人坐在餐馆里拿着写着「Menu」的菜单
一个男人举着写着「Stable Diffusion」的牌子
一个年轻的女性举着一个牌子,上面写着「Stable Diffusion」,头发高亮,坐在餐厅外面,棕色的眼睛,穿着裙子,侧灯
更好的人体结构
Stable Diffusion在生成人体解剖结构方面一直存在诸多问题,多几条腿、少个胳膊实在是太常见不过的问题,通常需要使用inpaint功能进一步对图像细节进行修正;或者是使用ControlNet的Open Pose功能从参考图像中复制人体的姿态。
比如说SD-v1.5生成瑜伽的图像,经常会出现扭曲的人体。
一个女人的照片在瑜伽服装,三角形的姿势,海滩在晚上,边缘照明
SD-XL虽然生成的图像并不完美,不过在人体姿态方面已经有了显著的进步。
更有美感(more aesthetic)
比如同样以屋子为主题,SD-XL可以生成更对称、视觉效果更好的照片。
SD-XL在肖像照片上也有显著改进。
一个女人的照片
更贴合prompt的图像
SD-XL可以更好地理解输入的prompt,并生成更精确的图像。
比如以duotone(双色)为例,SD-v1.5只会生成黑白图像,而SD-XL则可以生成具有多种颜色的双色调图像。
与 v1模型相比,理解提示符的能力有所提高。
一个女人的双色调肖像
因为SD-XL同属v2系列模型,所以文本模型尺寸更大,可以比v1模型更好地理解提示词。
比如下面的例子中,v1.5模型始终无法理解图像中的两个主题(机器人和人类),但SD-XL模型可以生成正常的图像(虽然机器人还是不够big)。
一个年轻人,头发染得很亮,棕色眼睛,穿着白衬衫和蓝色牛仔裤,站在海滩上,背景是一座火山
艺术风格
在艺术风格上,SD-XL并没有显著改进,和之前的版本各有千秋。
比如两个模型以不同的角度生成了Edward Hopper风格的图像。
![New York city by Edward Hopper
Edward Hopper绘制的纽约](https://files.mdnice.com/user/4269/c1ba99c5-82ef-478c-8212-0217e7dcdb6c.png)
Leonid Afmov 的风格中,SD-v1.5更准确,SD-XL缺少了不同颜色的笔刷(unmistakable colorful board brushstrokes)。
William-Adolphe Bouguereau风格中,V1.5和SDXL都可以生成一些类似的内容,其中SD-XL更接近Bouguereau创作的经典学院派绘画,并且面部细节更多。
William-Adolphe Bouguereau绘制的美女肖像
风格转变问题
在添加一些无关紧要的关键字后,模型的风格可能会突然转变。
比如先生成一张照片风格的图像。
一个年轻人,头发染得很亮,棕色眼睛,穿着白衬衫和蓝色牛仔裤,站在海滩上,背景是一座火山
再添加一条黄色的围巾后,图像风格就变成了卡通风格。
一个年轻人,头发染得很亮,棕色的眼睛,围着黄色的围巾,穿着白衬衫和蓝色牛仔裤,站在一个火山为背景的海滩上
问题的故障可能源于预览问题,在正式发布后该问题不知能否得到解决。
后台回复关键词【入群】
加入卖萌屋NLP、CV、搜推广与求职讨论群
[1] https://clipdrop.co/stable-diffusi
开源免费的Stable Diffusion-XL开启公测!效果可媲美Midjourney水平!相关推荐
- Stable Diffusion XL:更快,更强
Stable Diffusion XL:更快,更强 今天,Stability AI 的创始人兼首席执行官 Emad Mostaque 发推宣布,Stable Diffusion XL 进入公测阶段. ...
- 微信小程序直播开启公测了,与平台直播有何不同?小程序直播如何搭建
微信小程序直播开启公测了.在直播这个流量阵地里,每一个科技巨头,每一个零售商家,甚至是每一个个体,都渴望借助直播获得新的机遇. 1月中旬,不少商家收到小程序直播的公测邀请,并已交出了漂亮的成绩单: 完 ...
- 互联网日报 | 链家宣布取消电话营销;《英雄联盟》手游正式开启公测;AMD同意350亿美元收购赛灵思...
今日看点 ✦ vivo研发总部落户东莞,基建部分投资超50亿元 ✦ 链家宣布取消电话营销:接1个骚扰电话赔100元 ✦ 阿里健康上线"小蓝心"标记,推出首个网上买药保真机制 ✦ & ...
- 时隔 3 年,全新 Linux QQ 正式开启公测!
出品 | OSC开源社区(ID:oschina2013) 2019 年,腾讯低调发布了 Linux QQ 的更新,目前版本停留在 2.0 Beta2. 时隔 3 年,QQ for Linux 基于 N ...
- 华为EMUI 11开启公测 这十款机型率先尝鲜
10月11日消息,据华为EMUI官微消息,华为EMUI 11开启公测,共有10款机型可以率先尝鲜. 具体来看,这10款机型分别为P40.P40 Pro.P40 Pro+.Mate 30.Mate 30 ...
- 阿里云容器服务全线升级,ACK Pro开启公测、边缘容器商业化
容器服务企业版 ACK Pro 横空出世,高可靠.高安全.高性能调度 容器服务企业版 ACK Pro,不仅继承原容器服务 ACK 托管版集群所有优势, 例如 Master 节点托管和高可用等:而且,相 ...
- 骑士数字外汇即将开启公测版,以科技领导数字金融发展!
10月20日,骑士数字金融一站式资产托管平台--骑士数字外汇1.0正式开启公测,据悉,骑士数字外汇是由华尔街声名显赫的证券公司骑士资本原班技术交易人员研发.骑士资本成立于1995年,以稳健的行业风格和 ...
- EMUI10开启公测!华为P30系列率先尝鲜,详细升级教程奉上
这两年使用华为手机的用户越来越多,很大一部分原因是因为华为EMUI系统,自从华为将GPU Turbo.超级文件系统.方舟编译器等众多黑科技加入EMUI系统中,使得它的流畅度一点都不输于IOS了,而EM ...
- arm搭建云手机教程_全球首个ARM云手机解决方案 基于ARM架构华为云云手机开启公测...
1月初,华为宣布推出业界最高性能ARM-based处理器-鲲鹏920(Kunpeng 920)以及基于鲲鹏920的TaiShan服务器.华为云服务.今日(1月29日),华为云宣布基于自研ARM芯片的云 ...
最新文章
- 使用CSS实现三栏自适应布局(两边宽度固定,中间自适应)
- asp.net mvc 使用bootstrap的模态框插件modal
- Python+Selenium操作select下拉框
- which kinds of error message will prevent business transaction save
- NSA泄露的恶意软件DoublePulsar感染了数万台Windows电脑
- lisp提取长方形坐标_语义SLAM | 深度学习用于特征提取 : SuperPoint(一)
- MyBatis中Like语句使用方式
- Build path entry is missing: /src/test/java missing 报错问题解决
- oracle 10G表空间创建的步骤
- html不用ajax怎么提交,停止HTML中JS AJAX功能提交按钮
- 怎么在Chrome浏览器中插入IDM软件的扩展插件?
- matlab提取汉字拼音,中文转拼音工具
- 成功爬虫下载抖音用户视频(无水印)
- 百度大脑推出智能招聘解决方案,助力节省招聘成本
- html转化pug,pug转化html,sass转化scss
- Google收购Urchin
- 无线路由器显示无服务器,路由器没信号怎么办?三招教你解决问题!
- 高等概率论 Chapter 6 Construction of a Probability Measure
- python26.dll下载_python26.dll,下载,简介,描述,修复,等相关问题一站搞定_DLL之家
- nginx: [error] invalid PID number ““ in “/app/nginx-1.16.0/logs/nginx.pid“