启元世界CEO袁泉：能力涌现不只与模型大小相关 | 中国AIGC产业峰会

新闻 2023-04-12 衡宇

435 0

如何在元宇宙里训练AGI，未来可能是一个新的命题

衡宇发自凹非寺

非常AI | 公众号 QbitAI

ChatGPT和GPT-4引发全球地震，很多人都在思考一个问题：OpenAI的成功路径是什么？

在中国AIGC产业峰会现场，启元世界创始人兼CEO袁泉给出了他的答案，它很好地融合了三大时代红利。

三个红利具体如下：

一是摩尔定律带来的算力红利，尤其是GPU的算力；
二是算法的并行性带来规模可扩展的红利；
三是对无标注数据探索的红利。

2017年，Transformer出现后，OpenAI很快将这三点融合在一起，推出了GPT-1，而后GPT-2、GPT-3……

ChatGPT破圈之后，人们对AGI有了更多的理解和认识，而国内，启元世界也于早几年起开始在AGI方向探索。

启元世界成立于2017年。当时，几个联创在纽约听了AlphaGo创始人之一David Silver关于AlphaGo战胜李世石的分享，其中谈到了背后包含DL和RL的AGI技术，从而激发了他们对AGI的兴趣。

成立后，启元世界开始沿着AGI路径，以游戏为切入点，逐渐从互联网、元宇宙破圈。这一次，在总结OpenAI的成功路径后，关于践行AGI这件事，袁泉在活动现场分享了启元视角下的观点。

为了完整体现他的思考，在不改变原意的基础上，非常AI对其演讲内容进行了编辑整理。

中国 AIGC 产业峰会是由非常AI主办的行业峰会，近 20 位产业代表与会讨论。线下参与观众 600+，线上收看观众近 300 万，得到了包括 CCTV2、BTV 等在内的数十家媒体的广泛报道关注。

演讲要点：

ChatGPT是站在三大技术红利之上的一个划时代产物；
在特定问题空间中，几千万参数的transformer就能取得不错的效果；
未来5到10年，AGI的重点是元宇宙，因为元宇宙的本质是互联网丰富的语料、交互和3D开放世界游戏的合体；
涌现能力除了与模型大小相关，还可能和问题领域的规模、AGI是否已在这个领域充分探索，都有一定关联；
将AIGC融入游戏制作阶段，如游戏策划，尤其是数值策划等，会优化整个游戏数值生态的平衡性。

以下为袁泉演讲全文：

站在三大技术红利之上的划时代产物

ChatGPT破圈之后，大家都在分析OpenAI的成功路径。这里我也谈一些启元的思考和实践。

从技术角度看，我们觉得ChatGPT是站在三大技术红利之上的一个划时代产物。

一个红利是摩尔定律带来算力红利，尤其是GPU的算力，可能超过摩尔定律的提升速度。

第二大红利就是算法的并行性所带来的scalable的红利。2017年底、Transformer出现之前，DL的算法，尤其用于做序列数据、序列决策的算法，主要以LSTM（Long Short-Term Memory，长短期记忆网络）为主，很难并行化。

Transformer发布第二天，Ilya Sutskever（OpenAI联合创始人兼首席科学家）就看到它的并行性以及长语境能带来的好处，于是研究转向以此为基础。

第三大红利就是大数据中的未标注数据。我个人觉得，从2016年起，OpenAI就对它开始看重。

GPT-1就是把这三点较好融合在一起的产物，GPT-2在其基础上拓展了10倍，GPT-3又拓展了100倍，这让业界十分吃惊。

RL之父、DeepMind研究科学家Richard Sutton在2019年就提到，之前几十年，AI发展过程走的最大的弯路，就没有用可扩展性来进行研究。

但OpenAI很快把这一套践行到GPT系列大模型上。

践行AGI发展路径的启元方式

启元是怎么践行AGI发展路径的呢？

第一个阶段，从2017年开始，启元用3年时间主要在包括《星际争霸》等游戏世界里探索AGI。

从零开始，只用少量的、5000局中韩高手游戏录像作为启动，在游戏中训练AGI。

一个比较有意思的现象是，在特定问题空间中，几千万参数的transformer就能取得不错的效果。基于此，启元把它优化后用到了游戏行业最主流的7大品类游戏中。

第二阶段是游戏世界往互联网世界破圈。2016年左右，OpenAI就开始探究在互联网上是否也能够基于DL、RL甚至AGI来训练很强的智能体。

Transformer出来后，OpenAI发现scalable的方法，这也让全世界发现把AGI技术用在价值大于游戏行业100倍的互联网里，能创造更大的商业价值和社会价值，带来很多机会。

第三个阶段，可能也是未来5到10年的重点，就是元宇宙。我们认为元宇宙的本质是互联网丰富的语料、交互和3D开放世界游戏的合体。

AIGC如何催生元宇宙、在元宇宙中如何训练AGI，使得它能力越来越强，能够完成更多的任务，可能也是未来非常有价值的命题。

最后一步可能是AGI虚实迁移，服务或者应用于现实世界中。

启元世界的发展过程则主要分两个阶段。

第一阶段是前三年，主要是在各类游戏中训练决策大模型为主，参数级别在几千万或者一亿以内，能够让AI用小样本做启动，甚至从零开始做启动，探索这一类任务的边界。

第二阶段是从2021年开始，我们开始做10亿到100亿参数的语言模型。

背后原因是我们觉得模型的参数大小其实和所解决任务空间的大小、任务下能够收集到高质量语料高度相关。在我们看来，10亿到100亿规模，能和各个行业垂直应用相结合的这一类模型，还有非常大的潜力。

在决策大模型这一块，以《星际争霸》智能体为代表，2020年6月份，我们击败中国星际职业选手，出现了一个今天看来比较反常识的认知，那就是今天看到千亿参数模型可以涌现出100多种不同能力，在当时4900万参数的星际模型现场比赛时，涌现出“维京流”这样的新策略玩法，即按照人类选手的经验和规则去放基地、建造新东西的玩法，给了大家一些启发。