AI绘画这块领域实在是太卷了
4个月前研究了一下Disco Diffusion的AI模型之后: aimomomo:使用Disco Diffusion描述梦境
也就几个月的时间,我发现市面上的AI绘画真的层出不穷,并且效果都让人非常惊艳
本周我又发现一款AI绘画模型--Stable-Diffusion,这个模型竟然开源了,据说这是可以在本地跑起来的效果最好的AI绘画模型了。
于是我试了一下在Disco Diffusion上曾经用过的的关键词,将Disco Diffusion与Stable-Diffusion对比一下:
关键词:“A beautiful painting of a singular lighthouse, shining its light across a tumultuous sea of blood by greg rutkowski and thomas kinkade, Trending on artstation.”
Disco Diffusion生成结果
Stable-Diffusion生成结果
确实很惊艳了!!!
于是我查找了一些关于Stable-Diffusion这个模型的相关资料,分享给大家:
首先如果你想马上试用这个模型的效果,可以访问下面两个网站:
Stable Diffusion - a Hugging Face Space by stabilityai
https://beta.dreamstudio.ai/dream
但是这两个网站都一些问题,比如第一个网站因为访问人数过多,经常会有报错的问题,而第二个网站的模型,效果又不是特别好
所以如果你也可以访问colab版本,可以访问下面这个网址:
https://colab.research.google.com/github/huggingface/notebooks/blob/main/diffusers/stable_diffusion.ipynb
直接在浏览器上执行就可以了,操作跟Disco Diffusion的colab版本差不多,找到那个关键词文本的地方,改掉文本然后执行就行了,当然因为这个模型是部署在hugging face的space上面的,所以需要一个hugging face的key,这个注册一下hugging face的账号就行了。
当然如果你想要把这套代码部署到本地,应该是完全没有问题的
我在github上找了一下,果然有Docker版本:https://github.com/fboulnois/stable-diffusion-docker
上面说部署到本地需要8个G的显存,看起来普通电脑确实跑不起来,不过模型作者已经说明,未来在本地部署模型,只需要2个G的显存就足够了,可以期待一下。
我在本地用这个docker实测了一下,用的是笔记本的3080显卡,需要大概11个G的显存,但是跑一张图只需要十几秒,还算是比较快的.
另外AI绘画模型的原理到底是什么?我又找了这篇关于DALLE.2(这是一点都不open的openAI推出的收费版AI绘画模型)的论文解读视频
DALL·E 2【论文精读】_哔哩哔哩_bilibili
里面讲的已经很详细了,感觉从原理上来说,还蛮好理解了,当然要落地就没那么简单了,AI绘画模型动辄100亿参数,没那么多算力资源是玩不起来的。
彩蛋部分:
下面是我在浏览Stable-Diffusion的制作团队Stabiliy.Ai的官方网站:Stability.Ai,找到的一些有趣的还没发布的项目,相信一旦发布,在相关行业又会掀起一股腥风血雨:
这个项目写得很明白,说是AI做曲,让每个人都享受到制作音乐的乐趣,我猜形式可能也是输入一段文字描述,然后生成一段音乐吧,这项目要是推出来,是不是80%的音乐制作人都不用干了?
这个项目只说了是关于多模态的,但是具体是什么还没有明说,但是看这个名字,DeepFloyd,深度弗洛伊德?感觉是不是跟心理学相关的,难道是一个心理咨询机器人吗?应该还不至于,但是至少非常值得期待。
另外我在twitter上还看到模型作者说计划通过AI来做PPT,看来未来不仅插画师,音乐人要失业,连PPT设计师也都要失业了。