一份AI基建说明书
金磊 梦晨 发自 凹非寺
非常AI 报道 | 公众号 QbitAI
比算力、拼速度,今年火得藏不住。
就这两年,全球明星公司都纷纷开造,自建智算中心。
大洋彼岸特斯拉,马斯克今年重要的成就就是自研AI超算DOJO,为其自动驾驶破局开路。
国内超级独角兽商汤,面向未来的护城河不是别的——就是正着手打造人工智能计算中心 (AIDC)。
不止于明星公司,国内外头部城市,也纷纷打造着自己的人工智能智算中心。
北上广深先不论,武汉南京合肥……也都纷纷你追我赶。
为什么大家伙在速度这件事上,都要这么“死磕”?
一言蔽之,算力正在成为当今社会发展的核心资源。
用一个较为形象的比喻便是——相当于给一个企业、城市,装上了动力强劲的马达。
权威咨询机构IDC发布的数据:
算力指数平均每提高1个点,数字经济和GDP将分别增长3.3‰和1.8‰。
这个“马达”一旦开动起来,除了推动城市现有经济发展,对整个产业链上的企业、人才更是有着聚集效应。
换句话说,未来哪座城市跑得更快更前,「算力」肯定是核心要素之一。
有这样的效果,难怪全国各地的城市纷纷在智算中心上发力。
但别急,在更多城市开动这个“马达”之前,有两个问题亟待解决。
智算中心建设遇到什么问题?
时下,国内智算中心的建设处于早期扩张阶段,由于缺乏规范引导,一些问题逐渐凸显出来。
国家工业信息安全发展研究中心发布的一份报告中指出以下两点:
- 价格标准混乱
以两座城市情况举例,明明是定位相同、功能相近的智算中心,建设成本相差可以达到6.2倍。
- 建设方向不清
市场对算力的概念混淆,导致建设方向和建设需求错位,支持的应用场景太少。
上面2个问题合起来,最终结果就是——
花大价钱建了,却用不上。
其实类似的情况在几年前建设大数据中心的风潮中就上演过一次。
在本月一次采访中,国家工信安全中心副总工程师黄鹏表示:
我们不希望智算中心建设走上数据中心的老路,低水平重复,建了很多的基建,但是跑的应用不是很多,和它当地的发展需求不是很匹配,这不是我们想看到的。
智算中心的建设如何避免重蹈覆辙?
这个问题的答案不仅要在建设的执行阶段寻找,更是要在建设的规划阶段寻找。
也就是先明确究竟该建什么样的智算中心。
一个解决思路是——通过调研给出智算中心的合理价格标准和建设标准,让智算中心符合两个关键特征:
普惠和开放。
智算中心为什么要普惠?
站在全社会层面看,智算中心本应是公共服务基础设施,就像电信网络、电力设备一样。
就像工业时代的工厂离不开高效集中供电,智能时代的AI企业也离不开高效的算力供应。
根据OpenAI统计,从2012年的AlexNet到2018年的AlphaGo Zero,先进AI模型对算力的需求增长了30万倍,平均每3.4个月就要翻一番。
最近几年,以GPT-3为代表的AI大模型突破式发展让这个速度持续加快,最新数据显示算力需求翻倍的时间已缩短到2个月。
如此算力需求增长速度,各地企业靠单打独斗显然力不从心。
建设时芯片、服务器设备上的投入,基础设施、厂房建设上的投入,再加上建成后持续运营、电费的投入,一般的中小企业哪里负担得起?
回看二次工业革命的电力时代,各家分散发电的成本高、效率低,最终是具有规模效应的集中供电点亮了一个个城市。
到了智能时代,集中优势资源把算力聚合到智算中心,再以服务的形式把算力高效率的分配给有需要的企业就成了一个好选择。
国家工信安全中心副总工程师黄鹏在采访中还提到:人工智能有一个特点是“越用越智能”。
继续拿GPT-3来举例,正是大量数据和训练时间的投入造就了这类大规模预训练模型的成功。
所以让更多城市把智算中心建起来,更多企业把算力用起来,产生的规模效应要比电力时代更大。
这也是“普惠”二字更大的价值所在。
那么具体来讲,普惠都能惠及谁?它们又将如何受惠?
最直接的是AI企业和研究机构,尤其是资源有限的独角兽创业公司和更多中小型企业。
智算中心建起来,AI企业把算力用起来,转化成一个个产品和服务。
所以普惠进一步惠及的是智算中心客户,其中小部分是个人消费者,更大头还是企业客户。
AI想要落地,就得在真实业务场景中真正展现效果,产生效益。
这就引出了智算中心需要符合的第二个关键特征:开放。
开放包容的智算中心,才能助推AI产业落地到更多行业中去。
智算中心如何做到开放?
第一是算力构成层面,智算中心的算力本身不能“偏科”。
如智慧城市中的天气预测、智慧制造中的材料设计,智慧医疗中的药物发现等任务上都需要AI与高精度科学计算相结合。
也就是不能只注重AI训练和推理时所需的低精度算力,要把科学计算、工程计算与人工智能计算结合起来。
第二是AI技术层面,智算中心要去兼容适配的更多技术体系。
在开放兼容的生态下,也能让迁移成本降到最低。
一个形象的比喻就是,两台Windows电脑之间可以把软件轻松地迁移过去,而Windows和苹果则并不会那么顺利。
第三是产业应用层面,除了新兴的AI产业,智算中心还有一大任务是推动传统产业的智能化转型。
为了支撑智慧物流、智能制造等领域,AI还需要与5G、物联网、区块链等技术相融合。
做到以上三点,才算是让智算中心真正为各行各业提供普适的AI服务,真正做到开放。
一份AI基建说明书
单有普惠、开放还不够,作为未来全社会的基础设施,智算中心建设中还会面临诸多问题,需要明确。
上周,国家权威机构发布了《新一代人工智能算力基础设施发展研究》 (后文简称《报告》),正是站在更高层面发出倡议,谋求共识。
比如模式选择方面。
报告指出,纵观国内外新起的AI基础算力设施,不难看出一个明显的特点:
政企合作建设。
因资金来源不同、建设目的不同、合作模式不同又各有特色。例如一些城市计算中心,不仅能为基础科学研究提供算力,更为这座城市的新能源汽车、生物医药、气象预报等产业服务。
一个可行的办法就是:围绕“一类算力基础设施+N个产业创新平台”的架构来打造。
再比如规范价格方面。
中科院人工智能产学研创新联盟在综合存储、能耗、开发、定制、数据调度等一系列因子,并代入明确的算法标准后得出:
在同时具备5P双精度算力(64位)、25P单精度算力(32位)和100P半精度算力(16位)的情况下,智能计算中心的基础设施价格约为1亿-1.5亿。
此外,还有对未来的前瞻判断:
报告认为,未来智算中心发展特征不仅围绕普惠灵活、开放包容,更包括融合创新、安全可信等现实问题。
更多总结和观点,不再一一赘述,链接附在文末,有兴趣的读者可点击了解。
如何评价这份倡议?
正如文章开头所述,智算中心建起来就像给所在城市装上一个动力强劲的“马达”。
不过智算中心的建设不仅关乎一城一地,更是关乎全社会和整体经济发展。
将视角拉远,越过单个智算中心的建设,综合经济整体规划乃至国际形势,才能看出当前这份《报告》在更高层面的意义。
上面已经提及开放与普惠。
从社会长远效益看,更重要的是环保。
AI大模型效果惊艳的背后是巨大的能源消耗,像GPT-3仅训练一次就需约19万度电。
做到能耗控制、避免重复建设,才更有利于行业本身和各地产业将向绿色化、低能耗、可持续方向转变。
其中一些企业这方面依照《新一代人工智能算力基础设置发展研究》 指导已做出了成果。
再从更高维度视角看,全国范围内的算力要有一体化的统筹调度机制,避免重复建设和资源浪费——
例如,将时延要求不高的应用放到能源富集的中西部地区建设,时延要求高的应用放到用户需求集中的东部地区,响应“东数西算”的国家整体战略规划。
国际竞争层面,长远和通盘倡议也更能显露智算中心发展的价值。
算力已成为世界各国竞争角逐的焦点。就在今年,美国又下黑手把天津、济南、郑州等7地的超算中心列入实体清单,企图在关键技术上执行“卡脖子”战术。
且AI计算还牵扯到大量数据,像无人驾驶用到的地图数据、电商消费中的公民隐私数据都要靠自主可控的技术保障安全可信。
为了避免还在发展阶段的智算中心受制于人,在尽可能早的时间段提出未来智算中心从芯片、基础设施到操作系统、应用软件都应采用自主技术架构,本身对产业升级、社会发展就是一种保驾护航的呼吁。
就这样,“普惠”、“开放”的标准,全局、长远的考量,给智算中心的建设和发展指明了方向。
今后国家工信安全研究中心还将持续跟踪观察算力行业动态,希望打造一批可复制、可推广的实践案例,推动标准共识的形成。
有一种说法正被越来越多业内人认可:现如今,智算中心正在成为一座城市有没有数字经济潜力、值不值得看好的风向标。
甚至还有了“智算城”之类的说法,除了过去以GDP来衡量的城市梯队和排名,另一个赢在数字经济时代的一线城市,重点被关注的指标就是有没有智算中心、有多大规模的智算中心。
照目前衡量标准之下,数字经济的一线城市竞争,最积极的还是:
广州、南京、合肥、天津、成都、西安…
这其中你最看好谁?或者还有什么隐藏的高手玩家?
报告全文:
http://www.cics-cert.org.cn/web_root/webpage/articlecontent_101001_1437271865428021249.html