警惕发照片从不露手的人
梦晨 发自 凹非寺
非常AI | 公众号 QbitAI
什么?这些不是真人照片,都是AI画出来的?!
最近这样一组美女图片刷屏了,许多人看到第一反应都是“AI逼真到这个份上了?”。
直到看到手部露出了破绽,才敢确定确实是AI画的。
原来在ChatGPT的光芒掩盖一切的这段时间,图像生成AI已经从从画画悄悄进化到了“画照片”。
这种风格和质量的AI照片,还有很多在各大网络社区流传,国内贴吧、微博、NGA,国外推特、油管,到处都是。
有网友表示:AI聊天+AI照片,快进到AI网恋诈骗。
而Cosplay风格的AI照片也让一些人感叹“商业Coser和摄影师可能双双下岗”。
根据各帖子发布者透露,这些AI照片都出自同一个模型,Chilloutmix。
多个模型融合进化,照片级AI诞生
ChilloutMix,二月初出现在模型分享社区CivitAI(不少爱好者称之为c站)。
不到两周时间,下载数量超过5万。
简单来说,这个模型还是基于大家熟悉的Stable Diffusion,1.5版本,但是由许多衍生模型合并(Merge)而来。
主要组件包括两大模型,首先是Basilmix,专攻逼真的纹理和亚洲脸型。
但这个模型主要还是擅长半写实的“2.5D风格”。
接下来合并了用照片集数据优化的Dreamlike的衍生模型,让最终生成结果更接近3D写实风格。
除了两个主要模型之外,作者还添加了一些小的Embeddings(相当于给AI模型打补丁)。
比如第一个Pure Eros Face,提供的.pt文件只有3.92KB,可以合并到任何基于SD1.5的模型,专门负责生成“纯欲系面孔”。
所有这些模型和Embeddings,各自擅长不同的地方,如一种画风、一种纹理、人物脸型甚至姿势。
Merge在一起后,可通过不同提示词调用它们的能力,一般原作者都会附上使用指南。
如果还是不太会用,CivitAI社区里还会有很多网友晒使用相应模型生成的作品,其中还有很多标记了“NSFW”或“18+”,懂得都懂。
除了ChilloutMix之外,文章开头的那组图片之所以能固定生成同一张面孔,还使用了另一项技术LoRA。
LoRA本来是微软研究团队早在2021年提出的一项大语言模型微调的技术,可以大大提高微调训练速度。
去年底,韩国科学技术院KAIST一位研究员@cloneofsimo与HuggingFace合作,将此方法扩展到Stable Diffusion上。
不仅实现了单块11GB显存的RTX2080Ti实现模型完整微调,同时原始模型权重冻结,新训练出来的权重可以保存为3MB大小的单个文件发布。
这项技术被AI绘画爱好者用来让模型固定生成一个物体,最流行的就是固定一个人物形象。
现在,在CivitAI社区里,每个微调好的权重就叫做一个Lora,就相当于一个人物模版,所有人都可以方便下载使用。
如开头的那组图片就是来自叫“Korean Doll Likeness”的Lora,目前下载量排名第一。
对于ChilloutMix+LoRA这样的技术,作者也意识到了可能被滥用的风险,并着重提示了法律风险,特别强调不要用于真实存在的人物。
为什么AI还是不会画手?
对于这个问题,最近也有了研究进展。
Stability AI 发言人表示,在AI数据集中,手的图像不够显著,“在源图像中,手(比面部部分等)要小得多。”
佛罗里达大学AI和艺术副教授Amelia Winger-Bearskin解释说,AI基于从互联网上收集的数十亿张图像进行训练,它并不能真正理解“手”是什么,至少不理解解剖学意义上手和人体的关联。
在用来训练生成AI的图像中,手通常会抓住一些东西,或者另一只手。如此一来,手指的情况就不容易辨清。
如果所有的训练图像中,手都是五指张开,AI就能够画出正常的手。
ChilloutMix:
https://civitai.com/models/6424/chilloutmix
参考链接:
[1]https://huggingface.co/blog/lora