🔥SD生态迎来新变革！MJ与NovelAI开启AI艺术新篇章？🚀解锁超细腻二次元，未来创作新可能？

AI小说 2年前 (2024) lida

70 0 0

文章主题：AI艺术, SD生态, MJ开源

作者：刘秋杉「无界AI」负责人

前言

🎨 AI艺术，一场创新消费革命的直接体现，未来将引领一场技术革新风暴。🚀 这是自移动互联网时代以来，久违的技术革新浪潮，它像开源生态点燃的星星之火，照亮了新时代创业的每个角落。🔥不同于区块链加密的金融魅力，AI艺术带来的不仅仅是经济上的多巴胺效应，更多的是源自内心深处对全新未来的热切期盼——那种纯粹的、激发积极情绪的“内啡肽”体验。🌈这场变革，不仅仅关乎消费，更深层次地，它将重塑技术格局，开启一个充满可能性的新十年。💻🌟

未来：技术为王

🚀💡技术趋势聚焦SD生态，MJ作为潜在革新者，其深度源于SD核心理念，虽看似相似，实则蕴含创新升级的潜力——倚重动态数据集与美学算法迭代。我们翘首以盼MJ开源的日子，期待它能释放无尽可能，普惠众生，让科技力量惠及更多！🏆🌈

（一）二次元模型开辟可商用垂直模型先河

🌟二次元艺术的革新者🌟— NovelAI Diffusion、Waifu Diffusion及trinart等创新模型，以其超凡的「平图」魅力，为SD生态带来了前所未有的想象深度。它们不仅提供了近乎商业化的使用便利，更引领了「万物皆可垂直」的新模式，让每个领域都能展现出独特的美学风采。尽管过程中伴随着争议和批评之声，但不可否认的是，这些技术的进步确实弥补了SD模型在某些审美局限上的不足。商业化与技术创新，就像双刃剑，既带来革新也可能引发讨论。🚀

以 NovelAI Diffusion 为例

🌟【最强二次元生成模型】🔥由创新的 Novel 推出，采用顶尖的 SD 算法框架和丰富的 Danbooru 二次元图库训练，它以其卓越的图像质量赢得了赞誉！无需担心细节缺失，NovelAI 的出色表现令人眼前一亮。得益于 Danbooru 这个宝藏平台——一个集图片、标签与详细描述于一体的二次元艺术天堂，模型得以充分利用海量标注数据，省去了繁琐的人工处理。💡Danbooru 商业定位的独特性为 NovelAI 提供了发展的空间，尽管其内容广泛被用户自发上传和分享，却也引发了版权争议在日本。对于 AI 学习素材库的关联，Danbooru 保持了清晰的态度：与 NovelAI 等类似项目无关，并对未经许可的使用持否定态度。👩‍💻🎨

（注：以上相关内容引用自微博大 V：夜露·苟·布鲁图斯）

🔥SD生态迎来新变革！MJ与NovelAI开启AI艺术新篇章？🚀解锁超细腻二次元，未来创作新可能？

NovelAI Diffusion 生成作品

🌟【NovelAI技术创新引领SD新纪元】🌟NovelAI以其先进的科技实力，为SD领域带来了革命性的突破。正如Emad老板在推特上所分享的：“NovelAI的技术创新不仅提升了SD的整体效能，如手指修复和任意分辨率等细节优化，更开启了全新的技术篇章。”对于热衷于探索技术动态的你，这无疑是一个不容错过的深度探索机会。欲了解更多关于NovelAI如何通过科技赋能SD的具体进展，不妨点击链接或关注我们，让技术创新的力量引领你深入理解这一领域的前沿动态。🚀记得，每一次的技术革新都是对未来的预告，让我们共同期待NovelAI为SD带来的更多惊喜！💪

官方博客blog.novelai.net/novelai-improvements-on-stable-diffusion-e10d38db82ac

中对 SD 的改进工作，大致是修改了 SD 模型架构及训练过程。

像 NovelAI 这类的二次元模型对于用户输入的描述词的专业程度要求较高，如下所示：

🎨🎨精美的中国色彩墨画🎨🎨，以独特的[(中式水墨)]风格展现，每一幅都是艺术的🌟巅峰之作。采用最高品质颜料，细节刻画细腻入微，仿佛能触摸到历史的纹理。每一道笔触都蕴含着匠心独运，让观者沉醉于超乎想象的细腻与精准之中。欣赏这些杰作，感受传统艺术的魅力，体验[(最佳质量)]的艺术享受。🎨

(((a charming Chinese girl,1girl,solo,delicate beautiful face))), (Floating),(illustration),(Amazing),(Absurd),((sharp focus)), ((extremely detailed)), ((high saturation)), (surrounded by color ink splashes),((extremely detailed body)),((colorful))

不仅需要描述人物，更是要对人物的二次元细节进行刻画，甚至还要加一些有助于画质增强的词汇，这一系列操作被网友戏称为“咒语”，就像要进入一个二次元世界一般，首先你要学会“念咒”。好在社区力量是无限的，陆续出现了很多“宝典”，如《元素法典》

元素法典——Novel AI 元素魔法全收录docs.qq.com/doc/DWHl3am5Zb05QbGVs

和

元素法典第二卷——Novel AI 元素魔法全收录docs.qq.com/doc/DWEpNdERNbnBRZWNL

，将二次元的“心法口诀”公诸于众，且全民共创，这很“二次元”。

（二）AI 画二次元漫画逐渐可行

二次元模型对于画特定形象的人物十分擅长，比如在如下的连续出图中，我们大致可以认为都是一个“主人公”（称之为白小苏苏）在变 Pose 或者换装。因为我们给予 AI 的描述中对该人物进行了极为细致的刻画，就像固定了她的基因一般，加上二次元模型本身对于人物的勾画（平图）相对于真实人物就“粗放”一些，只要重要人物特征一致，便可以判别为同一个人。

{profile picture},{an extremely delicate and beautiful girl}, cg 8k wallpaper, masterpiece, cold expression, handsome, upper body, looking at viewer, school uniform, sailor suit, insanity, white hair, messy long hair, red eyes, beautiful detailed eyes {{a black cross hairpin}}, handsome，Hair glows,dramatic angle

直译为：

{头像}，{一个极其精致美丽的女孩}，cg 8k墙纸，杰作，冷漠的表情，英俊，上半身，看着观众，校服，水手服，疯狂，白发，凌乱的长发，红色的眼睛，美丽细致的眼睛{{一个黑色的十字发夹}}，英俊，头发发光，戏剧性的角度

于是进一步的，可以通过“底图模式”去约束人物的动作表达或者情节表达，再配上同样的人物特征关键词描述，便可以输出该人物动漫剧情般的“生命周期”，她不再活在一幅图中。何为“底图”控制，如下所示：

图片来源：wuhu动画人空间《AI 随便画画就在二次元绘画区杀疯了？！》

给 AI 上传左边的“粗制图”，是为底图，底图负责勾勒画面的大体结构，但未对人物细节进行刻画，随后由 AI 将人物特征细节进行“填充”，便会出现同一主人公摆出不同 Pose 的漫画剧情。

图片来源：wuhu动画人空间《AI 随便画画就在二次元绘画区杀疯了？！》

最后再配上文字、漫画格式框，稍微经过 PS 整合，便能出来一幅像模像样的漫画了。

图片来源：wuhu动画人空间《AI 随便画画就在二次元绘画区杀疯了？！》

当然上述都是基于现在 AI 模型的发展所提出的“妥协”手段，实际上我们在画二次元漫画时应该追求绝对的主人公一致性（真正是同一个人物）和更为精准的动作控制、背景控制甚至数量控制和表情控制等等，而这些都需要借助更为先进的技术，即如下所要讲述的模型训练和以交叉注意力为代表的精准控制技术。

（三）开放模型训练催生“万物皆可垂直”

随着二次元模型的成功流行，人们也越来越渴望更多类似的模型出现，以解决五花八门的创作需求。一个中心化的商业平台便需要做出一个大而全的产品以迎合用户需求，但面对指数级的市场增长，这显然是不现实的。最佳解决办法便是交给一个去中心化的自组织生态，像迸发二次元模型一样实现模型的“涌现”，去解决人们日益增长的创作需求。这便特别需要一种开放模型的力量，而 SD 在开源之处便将这种力量完全交给了所有人，每个人都可以去获得算法模型，都可以去训练自己的模型。于是，创作无限，模型涌现！

模型训练技术分 Checkpoint Merger（检查点合并）、Textual Inversion（Embedding 嵌入模型）、Hypernetwork（超网络模型）、Aesthetic Gradient（审美梯度）以及重量级的 Dreambooth 等。其中以 Textual Inversion 和 Dreambooth 最为流行，分别有着不同的技术原理和优势。

知名博主“Simon 的白日梦“在微博分享了自己使用 SD 的 Textual Inversion 技术训练的“黏菌卫星图”案例。首先需要准备训练数据集，大概一万张卫星地图；我们都知道 SD 模型本身要么只能单独出城市卫星图，要么只能出黏菌图；博主通过 Textual Inversion 再次训练之后，成功地把城市卫星图肌理和黏菌的微观结构融合在了一起。

再分享另外一个知名博主“大谷 Spitzer”使用 Textual Inversion 进行“分镜设计”的案例。我们在上面提到要做二次元漫画离不开固定主人公形象，所谓分镜设计便是能否用 AI 绘制出独特且相貌保持连续性的动漫角色。大谷用 Textual Inversion + 自制数据集训练了 6、7 种不同的相貌作为脸部基因。之后在输入给 AI 的文字中，即可通过改变训练好的几个相貌 tag 的比例权重，融合出现实里不存在，同时在系列图片里长相可以保持一致的角色。如下两幅图便是不同比例权重下出现的两位“主人公”，而对于同一位主人公，可以通过 AI 让其出现在各种各样的场景。比如“太空之声”里的女孩是同一个形象的不同故事表达，而“都市探员”里的主人公肤色更深、形象健硕，真的像一名探员。

在具体操作上，正如“Simon 的白日梦”所说：

当你输入一个模型中没有的概念，例如生成一个“Simon 的白日梦 up 主的照片”，因为 sd 模型没有见过我，自然不能生成我的照片。但是注意，其实 sd 模型中是具备生成我的照片的所有要素的的能力，毕竟我只是一个普通的中国技术宅，模型中应该有不少亚洲人的特征可以用于合成。

那这时候给出几张我的照片（坐标也可以通过编码图片获得），对比刚才说的文字提示，训练 textual inversion，其实是告诉模型“我是谁”，从而获得根据我的文字提示获得一个更准确的坐标。因此，训练完后，我们会发现并没有生成新的模型 ckpt 文件，而是得到了一个几十 k 大小的 .pt 文件，然后下次启动 stable diffuison webui 的时候就可以挂载这个文件，当我下次再输入“Simon 的白日梦 up 主的照片”这段文字的时候，模型就会读取这个 .pt 文件里边的准确坐标，并和其它文字描述包含的坐标融合，然后生成更符合文字描述的图片。

社区也在利用 Textual Inversion 为二次元模型丰富其尚不能绘制的形象，比如很多国产动漫角色，如秦时明月。只要有合法的数据集，技术都是现成的，通过算力让人物形象在 AI 的世界“凝聚”。

embedding即为Textual Inversion

Textual Inversion 的优势是轻量级、简单上手。它可以对主体（object）进行训练，让 AI 记住这个“人”或“物”，也可以对画风（style）进行训练，比如可以记住某位在世艺术家的画风然后让 AI 以此画风来画任何事物；训练出的模型文件可以直接挂载到 SD 模型框架中，类似 Linux 开放时代不断完善的动态连接库，因此对 SD 也是友好的。但劣势是，效果较为粗糙，目前尚未有可以进入商业化产品效果的模型出现，社区更多期待给予了另外一项技术——Dreambooth。

相较于 Textual Inversion 等在 SD 框架上的增添，Dreambooth 是直接调整整个 SD 模型本身，SD 模型是一个大概 4G 左右的 ckpt 文件，经过 Dreambooth 重训模型后，会生成一个新的 ckpt 文件，是一种深度融合。因此 Dreambooth 的训练会更为复杂苛刻。

由于 dreambooth 会将训练对模型的影响锁定在某一种物体的类别内，所以训练的时候不仅需要描述的文字、对应图片，还需要告诉模型你训练的物体的类别（训练完使用的时候，也要同时在 prompt 中包含类别和 token 关键字），并且用训练前的模型先生成一系列这一种类物体的正则化图片（regularization image）用于后续和你给的图片做半监督训练。所以，生成正则化图片要消耗额外的图片（一般要 1K+，但是可以用别人生成好的）；训练的时候因为是调整整个模型（即便只是模型中的部分参数），对算力和时间要求也比较高。我在本地一块 3090 上训练时显存占用达到 23.7G，训练 10K 张 10000epoch 需要 4 个半小时。—— Simon 的白日梦

黏菌卫星图模型两种训练效果对比，dreambooth更胜一筹

再回到二次元这个话题，同样有大 V 利用 Dreambooth 训练出了一个赛博风的二次元模型——Cyberpunk Anime Diffusion，由“大谷 Spitzer”开发，现已开源。

提这种模型并不是打广告，而是致敬其开创意义，起码在国内都是值得后来者去模仿和超越的。Cyberpunk Anime Diffusion 汲取了大量《赛博朋克：边缘行者》画风素材，在基础模型上使用的是一个基于 Waifu Diffusion V1.3 + Stable Diffusion V1.5 VAE 的融合模型，然后用 Dreambooth 导入自定义数据集训练了 13700 步就获得了以下的生成效果（使用方法，在 prompt 中加入关键词”dgs illustration style”）。

凭借着对底层基础模型更为深度地改进，Dreambooth 也被称为“核弹级技术”。同 textual inversion 一样，dreambooth 也可以训练主体、记住主体，比如输入几张自己的照片（家里的小狗），dreambooth 就会记住照片中的物体长什么样，然后就能把这个物体作为关键词套用到任何场景和风格中，“一键实现无限分镜”。

Dreambooth技术最早来自google论文，此为论文中的案例，一只现实小狗无限艺术分镜

同样可以人也可以，比如给自己来张自拍，然后让自己出现在艺术的大千世界中。

也有网友用 dreambooth 为“胡歌”训练了艺术模型。

记住主体更大的意义是，可以对主体进行“属性修改”。比如当 AI 记住了输入的“小汽车”后，便可以随心所欲地对其颜色进行更改，而其他特征保持一致。再回到二次元漫画那个话题，这种精准属性控制技术也是其关键推动技术之一。

正如《上线一个月成为准独角兽、上万人排队注册，AI Art是下一个NFT？》一文中写到：

“2022 年，可称为被 Diffusion 开启的 AI Art 元年。接下来的三至五年内，AI Art 将会往更加自由的方向发展，比如展现出更强的耦合性，可被用户定制的空间更大，也就是说更贴近“主观创作”的过程，艺术作品中也会分化和体现出越来越细致的用户想法。Google 近期上线的 DreamBooth AI 已经展现出了这一特点。“

除了上述对主体的训练，Dreambooth 最常被用来“记住”画风，即训练 style。上述博主（“地球土著座一亿”）用了十张夏阿老师的画，通过 dreambooth “记住”了他的画风，效果对比如下。

（备注：夏阿是出生于扬州，定居于南京的 80 后插画师。因 2014 年经常在网上发布“穿越”“混搭”“搞笑”类的国画作品，深受网友喜爱而“走红”。）

如下为夏阿的原作——

如下为 dreambooth 的训练效果出图——

不论是轻量级的 Textual Inversion，还是重量级的 Dreambooth，抑或介于二者之间的如 Hypernetwork（超网络模型）和 Aesthetic Gradient（审美梯度）等，包括更多的原生模型训练方式：模型融合、微调（Fine Tuning）等，都是现阶段输出更加可商业化新模型的利器。短短一个月时间便已经涌现出了大量在概念验证阶段的垂直模型，五彩缤纷。

社区基于 Textual Inversion 训练的模型大全开源库——

社区基于 Dreambooth 训练的模型大全开源库——

采用更多训练技术的模型大全站点 Civitai——

如果说 SD 为 AI 艺术打开了第一扇窗户，那么今天这些五光十色、极具创意的“大千”模型则为 AI 艺术打开了第一扇大门。尤其在 Dreambooth 模型生态中，有能够实现迪士尼风的模型、有当下 MJ 生态最火的机甲风模型……

https://huggingface.co/nitrosocke/mo-di-diffusion

https://github.com/nousr/robo-diffusion

（四）交叉注意力实现画面的精准控制

开放模型的出现给予了降维解决一切难题的方式，真正实现了“创造”二字。与此同时，也不能忽略一些辅助技术的发展，还是拿二次元漫画为例，我们不免要对一些更细节的绘制表现进行控制。如下，我们希望保留汽车和树木背景，但改变在它上面的“主人公”；或者将一幅现实照片进行漫画风格的变化，以做漫画叙事背景设计。

开源连接——

这就是所谓的交叉注意力控制（Cross-Attention Control）技术，连 StabilityAI 创始人也不禁为这项技术点赞：“在类似技术帮助下，你可以去创造任何你梦想的事物。”

该项目开源连接——

在这个项目 demo 中，可以改变主人公“小猫”的坐骑，可以给背景画一道彩虹，可以让拥挤的路上变得空旷。在如下类似的研究项目中，还可以做到让主人公竖大拇指、让两只鸟 kiss、让一个香蕉变两个、。

不论是【Imagic】还是【Prompt-to-Prompt】，精准控制技术对于实现 AI 绘图的自主可控十分重要，也是构建二次元漫画体系比较重要的技术动向之一，目前尚处于行业研究前沿。

（五）精准控制系列之 Inpainting 和 Outpainting

说到了精准控制，它不是某一项技术，交叉注意力是其一，还有很多辅助性手段为其服务，最为流行和商业成熟的是 inpainting 和 outpainting 技术。这是传统设计领域的概念，AI 艺术也继承了过来。当前 SD 也推出了 inpainting 功能，可翻译为“涂抹”，即对于画面中不满意的部分进行“涂抹”，然后 AI 会在涂抹区重新生成想要替换的内容，具体见下图操作。

开源地址——

同样以二次元漫画这个终极追求为例，当需要给女主人公增加一位帅气的男士时，便可以在她旁边区域进行涂抹，然后附上一段霸道总裁的关键词 prompt，AI 便会给女主一段“姻缘”。

另外一项技术 outpainting，被誉为“无限画布”，最早出现在 Dalle2 的商业产品体系中，当时也是震惊世人。简单来讲，将一张需要扩展的图上传给 AI，outpainting 便会在这张图的四周扩展出“无限的”画布，至于填充什么内容，也完全交给用户自己输入的 prompt 决定，无限画布，无限想象空间。如下利用 outpainting 为一幅经典名画填充了大量背景，产生了令人惊喜的效果。如今 SD 生态也拥有了自己的 outpainting 技术，开源地址——

在 outpainting 的加持下，不仅可以为一幅单调的图加无限的背景，更可以极大拓展 AI 艺术出图的尺寸，在 SD 生态一般出图为几百像素，远远不能满足大尺寸海报的需求，而 outpainting 技术便可以极大扩展 AI 艺术原生出图的尺寸。同样对于二次元漫画，甚至可以在一幅图中展现所有“参演人员”的形色百态。

（六）其他更多技术概念

除了上述重要技术外，还有很多细分技术被社区津津乐道。

可以利用 Deforum 做 SD 动画

知名博主“海辛 Hyacinth”也给出了一个完整制作 AI 动画的工作流——

其中提到了多种技术，如利用 inpainting 修改细节，用 outpainting 向外扩展，用 dreambooth 做动画主角，用 Deforum 不断生成改变、用 coherence 进行连续性控制、用 flowframe 补帧等等。更做二次元漫画一样，也是一项系统性工程。

prompt 逆向反推

整个 AI 艺术最关键的是 prompt，尤其对于新人用户，能否获得好的 prompt 是其能否获得优质出图的关键所在，因此很多产品化的 AI 工具都会在用户输入 prompt 这方面进行改进。除了大量可以获取关键词的搜索引擎网站外，逆向反推成为了一项重要辅助手段。所谓逆向反推，即给出一张图片，可以是真实世界的，也可以来自 AI 生成，逆向反推技术便可以输出能够绘制该画面的 prompt。虽然在实际效果中，无法反推出生成效果一模一样的 prompt，但这给予了很多新人用户获取带有复杂艺术修饰的 prompt 的途径。如下名为 guess 的逆向反推工具为一张图片反推出关键词，其开源地址——

还有一款名为 CLIP Interrogator 的工具，使用连接如下——

类似的还有 methexis-inc 发布的 img2prompt——

除了直接以图片进行反推外，还有一种工具如 Prompt Extend，可以一键加长 Prompt，可以将一个小白用户输入的“太阳”一键加长到带有丰富艺术修饰的“大神级”描述，工具地址——

搜索引擎

说到 prompt，不得不说被誉为宝库的各大搜索引擎网站——

在搜索引擎中搜索自己想要的画面，便会呈现符合主题的配图及其对应的 prompt。还有不直接给 prompt 搜索，而是引导用户一步步构建 prompt 的提示性工具——

如上图，可根据网站提示，一步步构建出一幅“美丽的面孔”。在这些工具的加持下，即便从未接触过 AI 艺术的用户，在短短几天内也能逐渐摸清构建 prompt 的精髓。

（七）除了作图，更多 AI 艺术领域

AI 艺术从 AI 作图开始，也称之为 text-to-image，但时至今日，艺术并不局限于图片，AI 艺术也不局限于 AI 作图，更多的 text-to-X 开始预示着未来 AI 艺术的新形态。最为知名的有：

text-to-3D

即文本生成 3D 模型，同样在 SD 生态也有类似项目，地址如下——

图片来源：量子位《Text-to-3D！建筑学小哥自称编程菜鸟，攒了个AI作画三维版，还是彩色的》

在给 AI 输入“一幅美丽的花树画，作者 Chiho Aoshima，长镜头，超现实主义”，就能瞬间得到一个长这样的花树视频，时长 13 秒。这个 text-to-3D 项目叫 dreamfields3D，现已开源——

除此之外，还有个项目叫 DreamFusion，地址——

DreamFusion 有着较好的 3D 效果，也被 SD 生态嫁接到了 SD 实现中，开源地址——

还有如 3DiM, 可以从单张 2D 图片直接生成 3D 模型；英伟达开源 3D 模型生成工具，GET3D——

text-to-Video

文本生成视频对技术要求极大，目前只有 google 和 meta 在争相发布体验性质的产品，知名的如 Phenaki、Imagen Video 和 Make-A-Video。其中 Phenaki 可以在 22 秒内生成一个 128*128 8fps 的长达 30 秒的短视频。而 Imagen Video 可以生成清晰度更高的视频，可达 1280*768 24fps。