近几年,AI图像生成风靡全球,它能够根据文字描述生成精美图像,这极大地改变了人们的图像创作方式。众多专业人士说该技术正在引领着新一轮深度学习创意工具浪潮,并有望彻底改变视觉媒体的创作。
AI绘画兴起
Stable Diffusion脱颖而出
目前文生图的主流AI绘画平台主要有三种:Midjourney、Stable Diffusion、DALL-E。
2022年4月,OpenAI发布了DALL-E 2,引发社交媒体热议。因为它能够将用文字编写的场景(成为“提示”)转换为无数视觉风格,有人使用这个工具创作了骑在马背上的宇航员,在古埃及购买面包的泰迪熊等。
DALL-E 2生成图像
之后不久,Google和Meta宣布了他们自己的文本到图像AI模型。
MidJourney自2022年3月起作为Discord服务器提供,几个月后向公众开放,因此上手有一点难度,不过是收费的,所以在默认情况下,MidJourney绘画质量更高。但它对于硬件性能的要求较高,甚至同一个指令每次得到的结果都不尽相同。
MidJourney生成图像
然后8月22日,Stability AI发布了Stable Diffusion。它使用来自LAION-5B数据集的512x512图像进行训练,已经过数十亿张图像的训练,可以产生与DALL-E 2和MidJourney相当的结果。
仅在发布后的一周后,媒体上就涌现了数十个将Stable Diffusion推向全新方向的项目。人们使用一种名为“img2img”的技术取得了意想不到的效果,该技术升级了MS-DOS游戏艺术、将Minecraft图形转换为逼真图形、将阿拉丁的场景转换为3D、将童趣涂鸦转换为丰富的插图等等。
Stable Diffusion生成图像
完全免费开源
还能自定义训练风格模型
Stable Diffusion核心技术来源于AI视频剪辑技术创业公司Runway的Patrick Esser,以及慕尼黑大学机器视觉学习组的Robin Romabach。
相较于DALL-E等其他平台,Stable Diffusion完全免费开源,目前有超过一千种模型可供下载,所有代码均在GitHub上公开,任何人都可以拷贝使用。
Stable Diffusion生成图像
在实际工作中应用AI绘画,图像的精准控制和风格控制是影响绘画效果生成的两个重要因素。Stable Diffusion中就拥有众多选项可供用户“定制化”个人图像,例如更改图像大小、生成图片数量、种子值、采样器等,同时支持prompt和negative prompt,能够提高提示中关键词的权重。
Stable Diffusion的强大之处还在于能够自定义训练风格模型,如果现有风格无法满足要求,可以自己训练特定风格模型。并且除了生成图像外,Stable Diffusion还能用在图像编辑、修复、超分辨率、风格迁移等众多方面。
Stable Diffusion生成图像
集成DCC工具
构建更庞大的生态系统
Stable Diffusion逐渐火爆的同时,Stability.ai官方和CG业内大佬还发布了一系列免费插件,例如AI Render、Stability等,来将Stable Diffusion集成到Blender、Houdini等DCC应用程序中。
AI Render
这些插件可以帮助用户使用Blender、Houdini等3D内容创建工具内部的开源AI图像生成模型,将简单块状几何体的渲染转换为详细的插图和概念艺术。
用户还能从动漫和线条艺术等基础风格,到超现实主义、包豪斯等美术风格等一系列预设视觉风格中进行选择,并在Blender、Houdini这些工具内调整Stable Diffusion参数以调整最终图像的外观。
预设视觉风格
自公布以来,Stable Diffusion依靠其支持本地化运行的特性以及强悍的性能,正以肉眼可观的速度爆红AI圈,已经被艺术家、开发人员和爱好者等社区广泛采用。与此同时,对GPU算力的需求也越来越高。
Stable Diffusion基本上是基于使用NVIDIA制造GPU而设计的,所以这项「黑科技」在NVIDIA GPU就有着最好的效率表现。赞奇与华为携手共创的赞奇云工作站,所有机型均配备NVIDIA专业级显卡,具有高达153.4 TFLOPS的Tensor Performance参数性能,对深度学习中的计算性能和效率有着更高的支持度,更有能力处理AI任务。
赞奇云工作站客户端
同时,赞奇云工作站(www.zanqicloud.com)还能整合打通设计者前端生态应用和设计业务全流程,全面调用云计算资源运用于AI(人工智能)的应用场景。高性能算力机器按需使用,灵活租赁,稳定性强。基于域控的安全策略,还可以免受病毒攻击,并且提供自动多副本可靠性机制。