Diffusion的火，只是AIGC的缩影 | 量子位智库报告（附下载）

新闻 2022-09-22 十三

436 0

AIGC的产业之路该如何走？

非常AI智库发自凹非寺

非常AI | 公众号 QbitAI

AIGC（AI生成内容），这个概念最近可以说是火得一塌糊涂。

例如Stable Diffusion，只要对它说一句话，“唰唰唰”地就能秒生成画作：

Big chunky Venom（巨大敦实的毒液）.

知名博主大谷Spitzer还用它“翻拍了”好莱坞国际巨星版的《华强买瓜》：

还有此前谷歌家的Imagen、OpenAI出的DALL·E系列等，也都成了备受网友们热捧的AI内容生成神器。

甚至还有人拿着Midjourney生成的画作参加艺术比赛，碾压人类夺得头筹，惹怒了一众艺术家

。

但正所谓“能用起来的技术才是好技术”，网友们将诸如此类AIGC技术热度推至的高度是对它实力的认可。

而此前市场还将项目发布仅一个月的Stable Diffusion背后公司估值为69亿元，这是资本对AIGC的肯定。

那么站在现在这个时间节点上，是时候对AIGC从技术发展路线、产业落地方向等多角度做一个梳理。

因此，非常AI智库在进行深入调研之后正式发布《AIGC/AI生成内容产业展望报告》，核心回答三大问题：

在技术上，AIGC已经可以完成哪些创作？
在价值上，AIGC除了直接生成艺术作品还能做什么？
在未来，AIGC将如何改变内容及相关产业？

（完整报告获取方式见文末）

AIGC技术及八大场景应用

AIGC全称为AI-Generated Content，指基于生成对抗网络GAN、大型预训练模型等人工智能技术，通过已有数据寻找规律，并通过适当的泛化能力生成相关内容的技术。

与之相类似的概念还包括Synthetic media，合成式媒体，主要指基于AI生成的文字、图像、音频等。

Gartner也提出了相似概念Generative AI，也即生成式AI。生成式AI是指该技术从现有数据中生成相似的原始数据。

相较于非常AI智库认为的AIGC，这一概念的范围较狭窄。

我们认为，目前AIGC生成正在完成从简单的降本增效（以生成金融/体育新闻为代表）向创造额外价值（以提供绘画创作素材为代表）转移，跨模态/多模态内容成为关键的发展节点。

技术视角下，我们认为以下场景将成为未来发展的重点：文本-图像-视频的跨模态生成、2D到3D生成、多模态理解结合生成。

商业视角下，我们认为未来3年内，虚拟人生成和游戏AI这两种综合性的AIGC场景将趋于商业化成熟。

下图中的绿色部分，是我们认为2-3年内具有快速增长潜力的细分赛道。

文本生成

以结构性新闻撰写、内容续写、诗词创作等细分功能为代表，基于NLP技术的文本生成可以算作是AIGC中发展最早的一部分技术，也已经在新闻报道、对话机器人等应用场景中大范围商业落地。

从现有的落地场景来看，我们将其划分为应用型文本和创作型文本生成，前者的进展明显优于后者。此外，从应用推广的角度来说，辅助文本创作是目前落地最为广泛的场景。

应用型文本大多为结构化写作，以客服类的聊天问答、新闻撰写等为核心场景。主要玩家包括Automated Insights（美联社Wordsmith）、Narrative Science、textengine.io、AX Semantics、Yseop、Arria、retresco、Viable、澜舟科技等。同时也是小冰公司、腾讯、百度等综合性覆盖AIGC领域公司的重点布局领域。

创作型文本主要适用于剧情续写、营销文本等细分场景等，具有更高的文本开放度和自由度，需要一定的创意和个性化，对生成能力的技术要求更高。

代表性的国内外公司包括Anyword、Phrasee、Persado、Pencil、Copy.ai、 Friday.ai、Retresco、Writesonic、Conversion.ai、 Snazzy AI、Rasa.io、LongShot.AI、彩云小梦等。

除去端到端进行文本创作外，辅助文本写作其实是目前国内供给及落地最为广泛的场景。基本主要为基于素材爬取的协助作用，例如定向采集信息素材、文本素材预处理、自动聚类去重，并根据创作者的需求提供相关素材。

这部分的国内代表产品包括写作猫、Gilso写作机器人、Get写作、写作狐、沃沃AI人工智能写作。

图像生成

图像生成的传统思路是生成对抗网络（GAN），由生成器和判别器两部分组成，生成器将抓取数据、产生新的生成数据，并将其混入原始数据中送交判别器区分。

虽然说在现有的GAN在神经网络架构、损失函数设计、模型训练稳定性、模型崩溃问题上取得了相应突破，提升了最终图像的特定细节、内在逻辑、生成速度等。

但要在实际应用中大规模稳定应用，GAN仍需解决以下问题：训练不稳定、生成的样本大量重复、结构及压缩等问题。

2022年，Diffusion Model（扩散模型）成为图像生成领域的重要发现，甚至有超越GAN的势头。

相较于其他的图像生成模型（比如GAN、VAE和基于流的模型），在所需数据更少的背景下，Diffusion Model的图像生成效果有明显提升。

而在3D内容生成上，神经辐射场模型NeRF成为新一代模型。

NeRF通过将场景表示为隐式的神经辐射场，渲染时通过神经网络查询位置上的场景信息生成新视角图像。简单来说，NeRF利用深度学习完成了计算机图形学中的3D渲染任务。

基于对不同技术原理的梳理，我们将图像生成领域的技术场景划分为图像属性编辑、图像局部生成及更改、以及端到端的图像生成。

属性编辑部分，可以直观的将其理解为经AI降低门槛的PhotoShop。现有代表公司包括美图秀秀（美图AI开放平台）、Radius5、Photokit、Imglarger、Hotpot、Remove.bg、Skylum（Mask AI）、Photodiva。

图像部分编辑部分，指部分更改图像部分构成、修改面部特征。典型代表为选入CVPR2022的InsetGAN，该模型由Adobe推出。

图像端到端生成主要指基于草图生成完整图像、有机组合多张图像生成新图像、根据指定属性生成目标图像等。

该部分包含两类场景，分别为创意图像生成与功能性图像生成。前者大多以NPF等形式体现，后者则大多以营销类海报/界面、logo、模特图、用户头像为主。

垂直代表公司/产品包括Deepdream Generator、Rosebud.ai、AI Gahaku、artbreeder、nightcafe、starryai、wombo、deepart、obvious、阿里鹿班、ZMO.ai、Datagrid、诗云科技、道子智能绘画系统等。

音频生成

此类技术可应用于流行歌曲、乐曲、有声书的内容创作，以及视频、游戏、影视等领域的配乐创作，大大降低音乐版权的采购成本。

我们目前最为看好的场景是自动生成实时配乐、语音克隆以及心理安抚等功能性音乐的自动生成。

TTS（Text-to-speech）在AIGC领域下已相当成熟，广泛应用于客服及硬件机器人、有声读物制作、语音播报等任务。

目前技术上的的关键，在于如何通过富文本信息（如文本的深层情感、深层语义了解等）更好的表现其中的抑扬顿挫，以及基于用户较少的个性化数据得到整体的复制能力（如小样本迁移学习）。

垂直代表公司包括倒映有声、科大讯飞、思必驰（DUI）、Readspeaker、DeepZen和Sonantic。

随着内容媒体的变迁，短视频内容配音已成为重要场景。部分软件能够基于文档自动生成解说配音，上线有150+款包括不同方言和音色的AI智能配音主播。代表公司有剪映、九锤配音、加音、XAudioPro等。

在TTS领域，语音克隆值得特别关注。该技术目前被应用于虚拟歌手演唱、自动配音等，在声音IP化的基础上，对于动画、电影、以及虚拟人行业有重要意义。

代表公司包括标贝科技、Modulate、overdub、replika、Replica Studios、Lovo、Voice mod、Resemble Ai、Respeecher、DeepZen、Sonantic、VoiceID 、Descript。