ChatGPT是什么？时代急速向前，不可浑然不知（附国内布局公司名单 | 文末）

新闻 2023-03-12

435 0

ChatGPT是什么？时代急速向前，不可浑然不知（附国内布局公司名单 | 文末）

应用型新技术的发展速度已远超大多数人认知范围。在不能创造历史、紧跟历史的前提下，就要努力做到读懂历史。

根据国际咨询公司Gartner（高德纳咨询公司）研究的技术成熟度曲线（The Hype Cycle）（上图）显示，2022年新兴技术符合三个主题：扩展沉浸式体验、加速人工智能（AI）自动化、优化技术人员交付。这些技术，从了解潜在的用例和技术进入主流采用的途径可能短至两年，也可能长达10年或更长时间。ChatGPT则处于加速人工智能（AI）自动化范畴，属于生成式AI。

Gartner预计生成式AI 2-5内将进入生产成熟期，发展潜力与应用空间巨大：

➢2025年，生成式AI产生的数据将占到所有数据的10%，而2021年生成式AI产生的数据不到所有数据的1%；

➢2025年，30%的大型组织出站消息将由生成式AI生成；

➢2025年，50%的药物发现与研发将使用生成式AI；

➢2027年，30%的制造商将使用生成式AI提高产品研发效率。

此前的决策式AI模型（Discriminant Model）是根据已有数据进行分析、判断、预测，典型应用为内容的智能推荐（短视频）、自动驾驶等；而生成式AI更强调学习归纳后进行演绎创造，生成全新的内容，本质是对生产力的大幅度提升和创造，已催生了营销、设计、建筑和内容领域的创造性工作，并开始在生命科学、医疗、制造、材料科学、媒体、娱乐、汽车、航空航天进行初步应用，为各个领域带来巨大的生产力提升。

生成式AI可以作为Web3.0的生产工具，但Web3.0中的应用仅是其应用的冰山一角。Web3.0围绕去中心化的理念展开，结合区块链、智能合约、加密货币等技术，核心是产生的数据由用户拥有，能够改变用户数据及原创内容等均由互联网中心化实体控制的现状，在创作者经济中取得更好的平衡从而提升用户创作内容的积极性。生成式AI在内容领域的应用能够满足用户不断提升的创作需求，在广大垂直领域的应用带来的是AI用途的结构性改变以及生产力的进一步提高，未来可能创造巨大的市场价值。

创造是生成式AI的核心，本质是对生产力的大幅度提升和创造。生成式AI通过从数据中学习要素，进而生成全新的、原创的内容或产品，不仅能够实现传统AI的分析、判断、决策功能，还能够实现传统AI力所不及的创造性功能。

生成式AI将促进生产关系高效发展，而不是像Web3.0重塑生产关系。Web3.0通过底层的分布式与去中心化、密码学的应用、加密货币的结算方式，为集体协作、分工、收益提供了更好的结算方式，去中心化自治组织（Decentralized Autonomous
Organization，DAO）将是常见的组织形态，打破了原有的生产关系。生成式AI不是打破传统的生产关系，而是通过提高生产力促进现有生产关系高效发展。

我们来看一下使用效果：

从对话中，不难看出。这份自动生成的检讨书，不单单是讲了一件事件，里边有逻辑、有态度，具体来看首先致歉了不良影响、影响范围，其次做出保证，最后给出态度和行动，用语诚恳、逻辑清晰，这样的道歉信，水准恐怕已经超越了很多人类。

前期架构、模型、数据、算力的积累与提升

架构改进：深度神经网络的学习能力和模型的大小呈正相关，但规模越大训练难度越高，需要对结构进行改进，拥有更强并行性的Transformer架构带来了深度神经网络参数量从最早的几万到目前的数千亿的跃升。

模型发展：GPT-3 、CLIP、Diffusion、DALL·E2等模型的提出极大提升了AI处理NLP、跨模态、生成问题的能力。

数据增多：拥有的优质训练数据越多，算法从中学习的效果越好。随着数字时代的到来，生成数据的工具和软件越来越普遍，数据
总量呈指数增长，可供AI训练的数据质量和数量均有很大提升。

算力提升：大规模深度学习模型的参数和数据量达到了一定量级，需要相应算力的支撑，目前，大规模模型的训练算力是原来的10到100倍。

从模型迭代来看：

变分自编码器（Variational Autoencoder，VAE）：2013年由Diederik P.Kingma和Max Welling提出，编码器将原始高维输入转换为对潜在空间的概率分布描述，从中采样输入解码器，得到新生成的结果，可用于图像生成、语音合成等，生成的图像较为模糊。

生成式对抗网络（Generative Adversarial Nets，GAN）：2014年由Ian J. Goodfellow等人提出，模型由生成器和判别器组成，以图像生成为例，生成器输入训练噪声后生成图像，判别器用来判断图像是真实的还是由生成
器生成的，随着训练不断进行，生成器水平提升，判别器不再分辨图像真伪，固定生成器对判别器进行驯良，直到判别器能够分辨图像真伪，固定判别器再次训练生成器，不断循环，获得生成效果好的生成器。GAN模型能够生成图像、3D模型甚至视频，但对输出结果控制较弱，易产生随机结果。

Transformer：2017年由Google团队提出，采用自注意力机制，按输入数据各部分重要性的不同而分配不同的权重,仅用attention来做特征抽取,网络结构的进化带来了参数量和模型层数的提高，引起了生成式AI技术能力的质变；并行化优势允许其在更大的数据集上进行训练,这也促成了GPT等预训练模型的发展。

视觉Transformer（ViT）：2020年由Google团队提出，将Transformer应用在图像分类领域。ViT将输入图片分为16x16个patch，再将每个patch投影为固定长度的向量送入Transformer，后续操作与原始Transformer相同。

ViT通过将人类先验经验知识引入网络结构设计，获得了更快的收敛速度、更低的计算代价、更多的特征尺度、更强的泛化能力，能够更好地学习和编码数据中蕴含的知识，正在成为视觉领域的基础网络架构。以ViT为代表的视觉大模型赋予了AI感知、理解视觉数据的能力，提升了AI的感知能力。

GPT-3升级自然语言处理，CLIP实现文本与图像互相理解

GPT：2018年由OpenAI提出，参数量1.17亿，预训练数据量约5GB，基于Transformer模型充分利用海量无标注文本进行预训练，赋予文本大模型在小数据集、零数据集下的理解和生成能力,提升了生成式AI的认知能力。2020年GPT-3推出，参数量达1750亿，预训练数据量达45TB，除自然语言推理、句子关系判断、问答、常识推理、分类等常见NLP任务外， GPT-3在撰写文章、编写SQL语句、编写JavaScript代码等困难任务也有优异表现，入选了《麻省理工科技评论》2021年“十大突破性技术”。

CLIP：2021年由OpenAI提出，利用文本信息监督视觉任务自训练，训练数据集为40亿个“文本-图像”对，采用Transformer模型对图像的patch序列进行建模，将不同模态的原始数据映射到统一或相似的语义空间，实现不同模态信号间的相互理解，拥有寻找不同模态数据间关系的能力，基于此能够实现不同模态数据间转化与生成，进一步可以根据图片生成对应语言描述也可以根据语言提示生成对应的图片，极大丰富了生成式AI技术的应用广度，为AIGC带来了更多的可能性。

Diffusion与DALL·E2实现高质量图像产出

扩散模型（ Diffusion model ）：扩散模型的概念最早在2015 年 “Deep Unsupervised Learning using Nonequilibrium
Thermodynamics”中被提出。2020年“Denoising
Diffusion Probabilistic Models”中提出DDPM模型用于图像生成。扩散模型通过
给图像增加高斯噪声破坏训练数据来学习，找出逆转噪声过程的方法，利用学习到的去噪声方法实现从随机输入中合成新的图像。该算法在分子图生成中可以进行药物分子和蛋白质分子的生成。

DALL·E2：2022年4月由OpenAI提出，基于CLIP实现文本与图像的联系，基于Diffusion从视觉语义生成图像，使用先验模型实现从文本语义到相应视觉语义的映射，最终实现以下功能：1）根据文本生成图片；2）将图像扩展到画布之外；3）根据文本对图像进行编辑，实现添加或删除元素；4）给定一张图片生成保持原风格的变体。

AIGC（AI-Generated Content）指利用人工智能技术自动生成的内容，是继专业生成内容（PGC）和用户生成内容（UGC）之后一种新型生成内容的方式。国际上被称为人工智能合成媒体（AI-generated Media或Syntheticmedia），是通过人工智能算法对数据或媒体进行生产、操作和修改的统称。

AICG大幅度降低了数字内容生产的成本，打破了数字内容生产受到人类想象能力和知识水平的限制，广泛应用于文本生成、音频生成、图像生成、视频生成、跨模态生成及游戏领域，其广泛应用能够满足数字经济时代日益增长的数字内容供给需求。

文本生成是生成式AI最早应用的领域之一，已经在对话机器人、内容续写、新闻稿撰写、诗歌小说创作等领域具有广泛的应用。

11月30日，OpenAI发布语言模型ChatGPT，该模型采用对话的形式与人进行交互，可以回答后续问题、承认错误、挑战不正确的前提、拒绝不适当的请求。ChatGPT不仅在日常对话、专业问题回答、信息检索、内容续写、文学创作、音乐创作等方面展现出强大的能力，还具有生成代码、调试代码、为代码生成注释的能力。

ChatGPT发布后5天用户已超百万，而OpenAI之前发布的GPT-3用了将近两年的时间才突破100万用户。

ChatGPT是基于GPT-3.5系列微调的结果，通过基于人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）进行训练：

收集演示数据训练监督策略：从提示数据集中抽取提示输入并人工给出期待输出，此数据用来微调GPT-3.5；

收集比较数据训练奖励模型：人工对模型输出的答案以及人工答案按照符合程度进行排序，此数据用于训练奖励模型；

使用近端优化策略(PPO)优化奖励模型：在提示数据集中抽取新的提示输入，PPO模型由监督策略初始化，模型根据提示输出后由奖励模型计算奖励值，PPO使用奖励值更新策略参数，然后更新PPO，持续迭代优化。

ChatGPT相较于GPT-3具有支持多轮对话、易于修正、人机交互效果更好、更快、更高效等优势，且目前免费使用，用户已超百万，更适合应用于人工智能客服、搜索引擎、智能客服、虚拟人、代码编程、文学创作等领域。

国内公司布局生成式AI情况

最后，来看一下Chat GPT开发公司 Open AI 发展历史：

2015年12⽉：Open AI由⼀群包括Elon Musk（造火箭和特斯拉的那位）和Sam Altman等个⼈和组织创建，旨在推进和促进⼈⼯智能领域的研究。

2016 年：Open AI 开发了第⼀个⼈⼯智能系统，击败了职业玩家在《Dota 2》游戏中。

2017 年：Open AI 发布了 GPT-1，这是⼀个能够⽣成⼈类⽂本的语⾔处理模型。

2018 年：Open AI 与 Microsoft 合作，推出了 Azure AI Platform，这是⼀个新的项⽬，旨在让开发⼈员更容易构建和部署 AI 应⽤程序。