要做中国OpenAI的很多，但智源要打造大模型领域的Linux

新闻 2023-03-01 衡宇

434 0

已加入Linux基金会

衡宇发自凹非寺

非常AI | 公众号 QbitAI

“要做中国的OpenAI！”“要打造中国版ChatGPT！”ChatGPT的火以燎原之势蔓延到每一个角落。

人们目光的焦点聚集到这个具体的现象级应用，或者其它大模型支撑的类ChatGPT产品上。大模型似乎成为了人人都能参与的游戏？智源研究院院长黄铁军并不这样想。

ChatGPT的出现，好比用电灯点亮了一个街区。
但是要建全国、全球的电网，中间还有很长的路要走。

“很长的路”上，技术、资金、算力、算法、基础设施，搭建了一道难以攻破的壁垒。要继续前行，得凿开壁垒，开凿的斧头应是大量的技术研究和创新合作。

智源研究院就提供了这么一把斧头，它联合30多家产学研单位，开发了FlagOpen（飞智）大模型技术开源体系。这也是国内首个大模型开源体系。

△黄铁军

黄铁军表示，希望大家的关注点从AI“海平面以上”冰山一角的大模型，回归到“海平面以下”的AI技术生态的全部，尤其是技术体系上。

一枝独秀，不如降低AI的应用门槛

2022年的云栖大会上，阿里推出了AI大模型开源社区“魔搭”Model Scope，推出伊始，达摩院就向社区贡献了300余个AI模型，全面开源开放。

FlagOpen是否意味着又一个魔搭的诞生？智源研究院副院长兼总工程师林咏华解释了二者的不同。

“魔搭有点像抱抱脸（HuggingFace）”林咏华谈道，“FlagOpen和魔搭不一样的地方是，我们的主要目标不是构建一个聚集很多人的繁华社区，而是推动大模型技术的发展。”

基于这个目标，FlagOpen配套了六个模块，分别是FlagAI、FlagPerf、FlagEval、FlagData、FlagStudio和FlagBoot。

FlagAI

FlageAI集成了很多主流大模型算法技术，以及多种大模型并行处理和训练加速技术，并支持微调。目前涵盖的模型包括NLP、CV与多模态等领域，如语言大模型OPT、T5，视觉大模型ViT、Swin Transformer，多模态大模型CLIP等。目前，FlagAI已经加入Linux基金会。

“悟道2.0”通用语言大模型GLM，“悟道3.0”视觉与训练大模型EVA，视觉通用多任务模型Painter，文生图大模型AltDiffusion（多语言），文图表征预训练大模型（多语言）等智源研究院“悟道”大模型项目多个成果也开源在FlagAI。

FlagPerf

AI软硬件评测面临异构程度高、兼容性差、应用场景复杂多变的挑战。FlagPerf搭建的AI硬件评测体系，支持多种深度学习框架，及时跟进最新主流模型评测需求，便于AI芯片厂商插入底层支撑工具，且不以排名为核心目标

截至FlagOpen体系发布，FlagPerf已和天数智芯、百度PaddlePaddle、昆仑芯科技、中国移动等进行合作。

FlagEval

FlagEval是覆盖多个模态领域、包含评测维度的评测工具，首先开放的是近期很火的多模态领域-CLIP系列模型评测工具，支持多语言多任务、开箱即用。

FlagData

FlagData数据工具开源项目集成包含清洗、标注、压缩、统计分析等功能在内的多个数据处理工具与算法。此前，智源研究院已经构建了WuDaoCorpora语料库。

FlagStudio

FlagStudio是文生图、文生音乐等艺术创作相关的开源项目集合，集合的算法和模型更贴合中文场景，当前主要提供智源研究院文生图相关能力的应用。

FlagBoot

FlagBoot是基于Scala开发的轻量级高并发微服务框架，默认完全异步，且没有宏、隐式转换等晦涩难懂的代码。极少的代码量便于开发者轻易了解背后逻辑，而后进行自定义修改。

“大数据+大算力+强算法=大模型”是当前AI发展的主流，用FlagOpen，开发者尤其是初创公司，可以尝试大模型的开发和研究工作，换句话说，AI的研发、应用门槛被降低了。

以大模型为主导的方向提供基础开源体系，某种意义上，智源研究院在追赶ChatGPT产品的热点上退了一步。这或许是其非营利性机构的性质使然。

而ChatGPT背后的OpenAI，也是打着非营利性机构的旗号出道的（2019年3月1日，OpenAI LP子公司成立，旨在营利）。同样的机构性质，同样押注AI，并关注大模型赛道，

智源研究院有打算，或者可能成为中国的OpenAI吗？

ChatGPT每日调动后台参数的成本已经是天文数字。如果要在中国打造一个OpenAI，需要多少成本打底？

“智源要不要做一个OpenAI，很难简单做对比。”黄铁军回答这个问题时说道，DeepMind、OpenAI和智源研究院是同类机构，但不能简单等同。追求AI前沿，做开放研究是三家机构的共鸣；没有大量投资就没有那么多人做大量探索，三个机构也都有各自的社会资源投入办法，比如微软刚追投了OpenAI100亿美元。

但黄铁军同时表达了自己的不解，那就是：中国版的OpenAI怎么定义？

“某种意义上，这就是很不清楚的问题。”