“你说我画”的浪漫与想象是取代画手还是数据游戏

新闻 2023-03-20

438 0

PPT设计师阿文用AI作画工具生成的画作。受访者供图

“一片向日葵花海在星空下闪烁。”

本来只是挑了梵高的两幅名画加以简单概括,结果AI基于文字描述,在充分的想象力下,从无到有地进行了绘画创作。而就在不到一年的时间内,这样的AI画手开始井喷式地出现——近期在海内外爆火的免费AI作画工具Disco Diffusion,输入简单的文字描述就能在线生成图像,其画面之精细,想象力之超绝让不少人直呼“AI比我都浪漫”；一度登上苹果应用商店的图形与设计排行榜榜首的Wombo,只要下载App,上传图片或输入关键词,再选择平台预设的风格,几秒之后就能生成图片……对此,有人欢欣鼓舞,认为技术的革新将为艺术领域带来全新的思考方式和改变,有人惶惶不安,担忧来势汹汹的AI画手将摧毁一大批中低端绘画岗位,甚至有人怒斥AI将艺术变为了单纯的数据游戏,使得绘画失去了意义和灵魂……“AI绘画”这一名词开始逐渐出圈,热议之下出现一种声音:AI绘画,元年已至。

绘画

修改文字描述就能花式作画

所谓的AI画作,到底是严格按照代码逻辑运行,风格单一的产物,还是AI的随机拼接游戏,抑或是真能如人类画手一般依照主题构想画作?

AI们都画了什么,它们又能画多少?

AI画手的第一批体验者们,当时就抱有着这样的疑惑。PPT设计师阿文就是其中之一。

今年4月份时,他偶然看到一个画手朋友在微博展示了一组AI作画的作品,效果惊人,朋友作为专业画手也给予了很高的评价,他便对这个叫做Disco Diffusion的工具起了兴趣。

这是一款基于谷歌的技术框架开发的AI作画工具,部署在谷歌Colab(一个可以通过浏览器编写和执行代码的线上托管平台)上,训练画作所需的算力也由谷歌免费提供,而只需要修改代码中的一个部分的文字描述,就能生成画作:

文字描述拥有画种描述、内容描述、画家描述、参考渲染方式、颜色描述五个维度,用户不用修改代码,而是只要从这几个方面进行调整和修改,就可以生成图像。

不过,鉴于是初玩,阿文只谨慎地修改了默认文本中的两个关键词,也就是将默认的“一座在惊涛骇浪中闪耀的奇异灯塔”改成了“一片在星空下闪耀的向日葵花海”。

而AI画出的第一张图片超乎了阿文想象的画作,色彩、构图都拥有超绝的美感和想象力。

精确的文字描述外加一点点天赐般的运气,很快诞生了数张色彩构图丰富大胆,如同梦境般的画作,阿文的作品一举出圈,在微博超过两万人转发,并纷纷表示震惊。也因此,大批用户纷纷涌入,开启了脑洞大开的AI花式作画。

在那之后,阿文也试用了另一款叫做Midjourney的工具,同样是“星空下的向日葵海”的描述,不过这次的生成结果并没让人太意外,“它就像一个听话的Disco Diffusion。”阿文笑道。在尝试多次后,他觉得Midjourney的想象力是比不上Disco Diffusion的,但好处是速度够快,五分钟就能成图,而且不至于像Disco Diffusion那样,有抢夺创作主导权的“野心”,是更适合艺术创作者的辅助工具。

还有更多像阿文这样的艺术创作者,走上了探索AI绘画工具的道路,并开始逐步挖掘各自的潜力。

比如主阵地是移动端的Dream,它的整体作画风格更偏向于梦幻柔和:而诸如DALL·E2、Imagen之类的AI画手,则是在如何更准确地理解文字描述、更好地组合绘画风格,最后生成更精确而言之有物的事物和人物的方向努力。

当然,除了这些从无到有的“高端创作者”,近几年也火过一批更加亲民的AI画手们。比如在去年一度火爆外网的AnimeGAN,可以实时地将人像转为漫画模样,也是在线部署,火到要排队几个小时才能玩到:去年在日推被疯转的AI,简陋的草图一经它手就会变成精致可爱的二次元萌妹:还有可以任意推断两张人物图像的子世代长相的Artbreeder,不仅几秒就能出图,还可以通过超多参数微调产出人物的长相；抖音、微信或QQ等app中将人物照片转变为其他风格的AI滤镜,也能被算进AI作画的范畴里。

在普通观众眼中,AI画手作画内容屡屡出圈,更证明了其有足够的冲击力和观赏价值。

从图像合成到“拿起画笔”

在现实生活中,一张成品画作是纸张和各种材料制成的笔墨水彩,而储存在电子设备中的一张图像,本质上则是一个像素点矩阵,每个都由RGB(Red、Green、Blue)三个颜色通道组成。可以说,AI绘画也就相当于一个可以逐渐产生像素,进行图像生成的计算机模型。因此,AI作画诞生之初,可以说是在依照逻辑执行任务。

转机发生在2014年。一位名叫Ian Goodfellow的AI从业者发明了一种叫做对抗生成网络(Generative Adversarial Network,简称GAN)的算法,彻底改变了图像领域。

对抗生成网络主要包含两个结构,一个是生成器(Generator),一个是判别器(Discriminator),而其核心思想则是“对抗博弈”。生成器的主要任务是生成尽可能真实的图像,而判别器则负责辨别眼前的图像到底是机器生成的,还是源于真实世界。这样,生成器在图片生成的过程中“造假”技术变得越来越强,而判别器的“打假“技术也将越来越精湛,在这双方的对抗博弈之中,最终产出的图片也将越来越真实。

对抗生成网络提出的两年内,图像生成任务有了大跨步的发展,一些有趣的应用,如老照片修复、换脸、素描上色,更是如雨后春笋一般应运而生。一开始,AI只能在受限的数据集内取得成果,得到的分辨率也不高,同时,AI也受限于机器对于人类自然语言的理解,文本生成图像的进展并不迅速。

直到2021年1月5日,全世界最著名的AI实验室之一的OpenAI实验室推出DALL·E模型。DALL·E取自超现实主义艺术家萨尔瓦多·达利(Salvador Dali)和皮克斯机器人WALL-E,可以从文字说明直接生成图像。同天,他们还推出了一款叫做CLIP的技术框架,这一款能将文本与图像联系起来的特殊的“图像识别”,可通过一段文字描述来识别图像。

以这两款技术的诞生为标志性事件,语言理解和图像生成任务多年来的技术积累,以“AI绘画”为载体,开始集中爆发。

2021年底,基于类别引导的扩散模型(Guided Diffusion)出现,再结合CLIP,一并组成了上文中提到的火爆全网的Disco Diffusion背后的核心技术。

今年4月,OpenAI对DALL·E做了升级,推出了更高分辨率、更低延迟的DALL·E-2。这一技术架构已经脱离了简单的素材拼接,而是确实理解了许多抽象概念——比如空间、光照,甚至是对现实中不存在的图像的想象:

但文本到图像领域的SOTA(State Of The Art,指在特定任务中目前表现最好的方法或模型)才被OpenAI保留了一个月,谷歌大脑研究团队就在5月24日推出Imagen模型,使得机器的想象力又到达了一个新的高度。在论文中,Imagen与其他图像生成模型都在目前最有影响力的计算机视觉数据集之一的COCO上进行测试,与DALL·E,DALL·E2,GLIDE等同领域模型对比,Imagen生成的图像与真实图像的差别是最小的。

随着一个又一个革命性的技术框架出现,一个又一个具有影响力的科研团队进入赛道,AI作画开始从粗糙走向专业。

从AI的随机组合游戏,到理解文本描述开始“想象”,AI真的一步一步拿起了画笔。

质疑

AI画手会不会代替掉一些中低端画手?

“我认为今年就是AI绘画元年。”PPT设计师阿文这样表示。数量井喷,技术迭代速度极快的AI绘画工具,不仅热度出圈,身边的艺术设计、绘画等领域的很多专业画手们也纷纷给予了非常积极和正面的评价。

尤其是其所展现的“想象力”,几乎是将手伸到了人类认为只有自己才能做到的领域,背靠网络上现存的所有图像库,再加上惊人的识别能力和融合速度,AI总是能在极短的时间内产出各种匪夷所思的绘画思路和结果。

于是,这样一个观点逐渐在焦虑中成为了一种主流:AI画手会不会代替掉一些中低端画手?对于这个问题,阿文给出了否定的回答:即使是现在大热的Disco Diffusion和DALLE·E,也没有投入到生产项目当中,因此最多接触到这些工具的人群,依然还是圈内的设计师们,所做的也都是前沿的尝试,还没有到产品商业化的地步。

而且更重要的一点是,现在的AI画手对于真正的甲方来说,还不够“听话”。比如,就当下的AI绘画来说,“关键词”极其重要,如何编写结构合理语句优美的英文描述句,以便于AI充分识别和理解是出画的核心。而对关键词的极高要求,使得AI作画并不能像很多人类画手那样“指哪打哪”,并且关键词稍有不慎,人工智能就可能不再智能。

比如将动画大师“宫崎骏”加入描述词后,AI直接将人物头像生硬拼凑到画面中。因此,至少对现在的AI绘画工具来说,人类画手后期的调整和加工必不可少。

此外,由于AI绘画的技术较为前沿,使用时需要一定艺术知识,所以最先接触与熟悉的第一批用户,一定是画手和设计师,即产业中的乙方。而且越到后期,AI工具就越需要关键词输入之外的更多知识,比如具体到调整代码参数。因此,即便是走到了产业化的一步,甲方首先接触到的,也更有可能是“会使用AI的乙方”,而并非AI本身。

作为“会使用AI的乙方”的阿文,还提出了另一种观点:AI绘画的出现,反倒会让很多画手有了新的契机,能够借助AI工具成为高端画师。画工、想象力、底图、灵感……诸多不足都可以由AI绘画工具来补足,只要在这些图的基础上进行二次创作,就很有可能够到更高的门槛。至于版权问题,阿文表示,AI作画工具在使用时,确实有通过描述词进行了“画风抄袭”的可能性,因此他建议,尽量使用已经过世的艺术家的风格,如果使用了某位风格鲜明的当代艺术家作为关键词,或者使用了某部商业作品作为参考画作时,还是尽量避免商用。

不过他也提到,比如Disco Diffusion并不是所谓的描图、素材拼接或组装,而是依据技术框架对图像进行了规律和技法的提炼,然后再进行模仿,所以“画风抄袭”的风险不是很大。

另外,Disco Diffusion现在的所有代码已经开源,且遵循MIT开源协议,也就是别人可以进行闭源修改代码,且无须经过版权说明,就能复制甚至销售衍生的产物:

至于一些二次元头像生成器,阿文则开玩笑地表示“技术不到家,抄得还不够像”,因此甚至都到不了“画风抄袭”的地步。

AI抹杀了绘画的意义?

就像当年的摄影技术之于写实绘画,或者像今天的AI之于围棋。在更深层次的思考中,有人担心AI是否会抹杀绘画的意义。

摄影技术诞生于两百年之前,一经应用便迅速取代了绘画的记录留影功能,一度使得诸多传统画家认为绘画将在摄影技术下的逼迫下逐渐消亡。当时的绘画看似在摄影的“逼迫”下失去了其实用价值,转为了纯粹的艺术领域,但实际上,摄影在视觉经验上的真实性,使得很多画家开始更多地关注绘画本身的特质,试图以绘画对现实乃至精神世界进行更丰富的演绎,后印象派、野兽派等新兴流派因此得以诞生。

而到了今天,摄影不仅有最实用的记录功能,自身也是一门独立的艺术学科,有着构图和色彩领域的知识体系；而绘画在不失艺术性的同时,留影功能也开始逐渐复苏,甚至因为其独特的笔触带来了更多美的享受。

而类比到AI绘画上来也一样,这无疑是对于现在绘画的一种冲击,但新老技术之间并非你死我活的竞争关系,而是相互融合,共同进化发展的一种趋势。一位画师认为,艺术创作很多时候是基于艺术家独一无二的性格、境遇、或者一闪而过的某种激情,是为了抒发自我,表达内心的感情而存在的。但AI只是基于图像库分析并重组,并没有任何目的和情绪,实在难称得上“具有灵魂”。

但具有灵魂,产生共鸣,一定是要了解作者背后的情绪吗?

阿文举了一个这样的例子:当你走进一个美术馆,看到一幅画,然后被打动了,很多时候你可能不知道背后的作者是谁,要抒发什么样的感情,但有些画作就是能在观众看见的瞬间,便与其产生共鸣。能使观众产生感受,那这幅画作就是有意义的。

而当我们再回过头去看那张出圈的“星空下的向日葵海”,我们已经完全知道了这幅画作创作的全过程及其中的技术细节,也知道AI在创作这幅画的时候是不具有任何或者说类似人类画家那样的情绪。

但翻开这幅作品的评论和转发文案,即使知道这是AI,“充满意境”“浪漫无比”“有被感动到”的评论还是数不胜数。

“就像是AI在赛博朋克时代梦到了梵高。”在未来,AI绘画是成为人类画手最完美的绘画辅助者,还是可以成为一名可以与人类并肩的画手?让我们站在星空下的向日葵海中,静静等待答案。

采写:南都见习记者杨博雯

MJ指南