一个时代有一个时代的造芯模式
李根 鱼羊 假装发自 西溪
非常AI | 公众号 QbitAI
“生死看淡,不服就干”,平头哥造芯模式,正式跑通。
2022云栖大会现场,新进展再次由阿里云智能总裁张建锋对外宣布。
倚天710已大规模应用,成为中国首个云上大规模应用的自研CPU。
在核心应用场景中,算力性价比提升30%以上,单位算力功耗(耗电量)降低60%以上。
张建锋还宣布,倚天710的部署规模还会进一步扩大,未来两年20%的新增算力都将使用自研CPU。
更直白翻译,就是以后阿里云的芯片部署中,每10颗CPU芯片里就有2颗自研CPU。
这个进展和应用,为何重要?
首先,大规模部署代表着芯片产品获得了市场检验,也意味着最难的生态一环达成闭环——虽然不如新硬件来的“刺激”,但意义和价值却丝毫不逊于新品发布,甚至长远来看,量级简直不能相提并论。
其次,倚天710,作为一款基于Arm架构的云端CPU,想要在x86占主导地位的全球云计算和服务器芯片生态中立足,更是难上加难,目标十中有二更是Arm架构在云端里程碑式的新突破。
最后,倚天710的大规模部署,不仅是中国首个自研CPU的应用纪录,还意味着诞生在造芯浪潮中的平头哥模式干出来了!
纵观半导体半个世纪的发展史,检验造芯模式的核心关键一以贯之:
- 造出来(设计和流片)
- 用得上(需求和性能)
- 用得好(功耗和成本)
- 离不开(工具和生态)
而在倚天710的进展中,这四大流程关键,平头哥都(一口气)完成了实践证明。
唯一待解之谜,只剩下造芯模式的通关速度——
传统IT时代的造芯公司和通用芯片,短则5~7年,长则可能10年……
而平头哥的倚天710,仅仅用了2年。
所以这种模式和速度背后,根本原因是什么?
是半导体领域也面临世纪变革?
抑或一个时代果真有一个时代的造芯模式?
中国首个云端大规模应用的自研CPU
倚天710,2021年云栖大会发布,是平头哥造芯以来交出的首款通用型CPU。
单芯片600亿晶体管、128核、主频3.2GHz……首战跑分就超出业内标杆20%,能效比提升50%以上。
主要用于云计算场景,基于Arm v9架构,首发即刷新了Arm服务器芯片性能纪录。
作为通用芯片,需要囊括接收、处理、运算服务器计算机内部所有信息,是业内公认的设计难度最高的芯片之一。
但芯片之难,最根本还不在于设计和制造,更关键的是落地和应用:能够真正让更多人用得上、用得好,以强大的生态拱卫垒砌起护城河。
于是一年之后,平头哥交出重要答卷。
阿里云方面称,经过一年业务验证,倚天710已规模部署并对外提供服务。
具体到应用场景中,在数据库、大数据、视频编解码、AI推理等核心场景中的性价比提升30%以上,单位算力功耗(耗电量)降低60%以上。
这种应用实例,有阿里内部的新业务,也有外部客户:比如研究机构,智能手机企业,还有知名互联网公司。
主打数据智能SaaS工具生态的汇量科技就表示,在广告推理中使用倚天710实例后,不仅有效提升了CPU处理能力和网络带宽,成本对比传统实例也降低15-20%,综合性价比提升40%以上。
而阿里集团内部,倚天710则开始支持最核心的电商业务,并且成功在双11等峰值流量大考中,经受住了实战检验。
这种应用和反馈,意外吗?不算意外。
毕竟性能和参数,从设计和成功流片之后,就决定了跑分成绩。
但一款Arm云端CPU能够快速应用于不同场景和服务,适配不同领域的软件和应用,纯靠硬件之力,办不到。
阿里云方面解释,这背后离不开倚天710、飞天操作系统和CIPU融合,首次实现了芯片、计算架构及操作系统的协同优化。
而且从造芯启动开始,算法、软件和生态工具的相关工作也早已启动,作用到倚天710大规模部署中,实现了全应用生态的适配,甚至0代码修改即可完成主流业务迁移。
所以对于平头哥造芯,软件定义硬件、需求定义供给,都是已经验证过的定理。但全局思维下的以终为始,把生态和应用纳入到造芯流程中,却是新角度、新方法。
这是对传统芯片研发模式的根本性变革,也暗含云原生映射的时代趋势,更能解释平头哥造芯的模式和速度。
倚天710的成功、平头哥模式的跑通,是云计算定义硬件的成功,是云计算重塑芯片甚至整个IT硬件体系的证明。
更代表着——IT时代全新的造芯模式开启。
一个时代有一个时代的造芯模式
阿里入局造芯,平头哥不服就干。
气势、速度和交货,三位一体。
2018年9月,整合中天微和达摩院成立旗下芯片公司后,平头哥半导体正式推出,放话“生死看淡”。
仅仅1年,首款处理器产品玄铁910对外发布,创造RISC-V开源阵营里的最快纪录。
又过1年,还在云栖大会,首款AI专用芯片含光800,一剑霜寒十四州,首发特定场景性能就40倍于同领域标杆英伟达P4。
到了2021年,依然是云栖,倚天710以阿里首款为云而生的通用CPU震动业内,性能跑分领先,能效比更是领跑……
加上今年披露的落地部署和应用进展,用产品回应质疑,用进展证明模式和实力。
整个进程中,平头哥造芯模式的速度秘诀,也在摸象中逐步清晰。核心归结起来其实就3点。
第一,造得快,因为需求清晰。
传统半导体厂商造芯,先调研客户、再收集需求、接着内部收敛聚焦,然后才能进入定义和芯片设计……过程中免不了技术、产品和工程的拉锯平衡,于是造芯周期光在前期规划就会无限拉长。
平头哥之所以不同,是因为阿里云在客户服务、需求和算力产品定义上,积累已非一日,设计规划周期,可以大大缩短。
第二,造得好,源自任务明确。
一方面,通过需求定义供给。什么样的任务,需要芯片提供什么样的能力……传统造芯,先把性能按照天花板设计,再在部署应用中想办法适配和榨干,芯片之于应用是参考答案。而需求定义供给,则可以抓住主要任务和矛盾,芯片即解答。
另一方面,软件定义硬件。芯片作为计算任务的解法集成,以前是先有硬件再配算法,但从AI为主的专用需求开始,最高效的解法早已变成了软硬一体化方案,甚至为了算法和软件去定制芯片硬件。
这种源头起点上的变革,芯片的性能、功耗、应用落地,自然不会差。
第三,用得上且用得好,因为落地场景清晰。
平头哥造芯,从一开始就与阿里云紧密协同,阿里云是集团同事、客户、也是落地场景,在阿里生态内,就能完成芯片的全流程。
芯片的流程,之前最受关注的是设计和流片,但这其实只是开始。
流片之后需要压测,验证稳定性,然后小批量交付客户开发利用反馈,进行功能性测试,如果有问题还得重新设计、改版,再走一遍周期,这也是为什么一款芯片在流片成功之后,依然需要一年半载才能验证应用价值的内在原因。
但平头哥不同,在阿里集团内部,在阿里云的体系协同下,各种压测、场景和应用反馈,基本是完整全链路的。
比如倚天710,去年8月点亮成功,云栖大会官宣发布,紧接着双11就开启了峰值极限下的稳定性压测……以往传统芯片公司用时一年半载才能完成的流程,阿里几个月就走完了,一款芯片的成熟周期,被大大缩短。
所以平头哥造芯,自然是攻坚科技产业中最基础又最关键的一环,但从一开始就并非为造而造,或者因为热潮而出发。
平头哥半导体的价值,或许要放在整个阿里的算力攻坚进程中,才能透过局部看整体,透过现象看清本质。
阿里云的发展史,关于开创者们的往事记述很多,而且传奇性和喜剧感十足,早已深入人心。
但从算力技术主线和维度,可以倒推归结为4个阶段。
第一个阶段,用分布式技术解决算力瓶颈。
在全球互联网流量大爆发之前,企业算力的核心载体是小型机,通过线下自建或租用服务器的方式解决算力问题,但对于身处消费互联网方向上的企业而言,这种模式显然越来越难以为继。
阿里的算力攻坚,以及阿里云计算的肇始,就是基于这样的背景。
2007年,为了应对指数级扩张的淘宝流量,阿里开始从业务底层的IOE(IBM小型机、Oracle数据库、EMC存储)寻求根本性解法,即后来的基于云计算搭建全新技术架构,打破“扩大采购规模”的线性局限。
其后进一步为这套底层技术和上层业务开发操作系统,在2009年正式启动了飞天,阿里云也由此正式成立,没想到日后会成为中国企业自研云计算的开端。
飞天云操作系统的本质,是要用分布式架构替换中心化架构,可以让全世界服务器实现连接,既能快速应对突增的流量,还能让计算资源真正像水电一样即需即用。
所以“分布式架构”和发展方向,就是算力攻坚的核心第一仗,后面集群挑战、故障运维、并发应对……都是正确方向之下的升级打怪。
结果则人人都感知到了。双11购物不再卡顿,12306春运购票也逐渐不再被吐槽……这都是阿里在分布式计算思想下开花结果的功劳。
第二阶段,从云计算需求和痛点,反向定义新硬件。
云计算的好处,一用即知,但虚拟化损耗的问题却一度成为顽疾。
所谓虚拟化损耗,就是云端调用线下服务器的进程,本身就会吸走机器性能,造成算力浪费。
业内面对这一顽疾,往往采用更低成本的软件优化方法,但显然治标不治本,只能优化,不能根治。
阿里云的方法是后来的神龙架构,打造了一个专用硬件来负责芯片不擅长的虚拟化调度工作,用软硬件一体的思路真正做到了0损耗。
这让阿里云一下子坐稳了份额第一的位置,也带来了更重要的开始:算力攻坚要向底层硬件、甚至芯片寻求解法。
软硬一体化,软件定义硬件,或者说云计算定义新硬件的趋势……在阿里云,以2017年9月第一代神龙架构推出作为标志性节点。
第三阶段,造芯,重塑整个IT硬件体系。
也就是当前所处的阶段,以2017年达摩院成立,求解前沿芯片技术和2018年平头哥半导体推出为标志性事件,阿里云真正从“软”到“硬”,从云端向下定义芯片。
当然这种求解,有宏观社会责任担当的原因,但在阿里云发展方向里,趋势也早已再明显不过。
一方面是去IOE体系之下的硬件进一步变革需求。另一方面,作为云计算服务提供商,不碰芯片,不碰硬件,其实就无法真正做到性能、成本和体验的最优解。
于是可以看到,除了自研芯片,阿里云还在服务器、交换机等硬件方面做了系统性革新,以芯片为起点,几乎重塑了整个IT硬件体系。
上一阶段的神龙架构计算平台,也在不断升级,成为新物种:CIPU——向下可以对数据中心的计算、存储和网络资源快速云化并进行硬件加速,向上接入操作系统。
所以这就是终点了吗?
从阿里云已经交货部署的成果来看,可以算是阶段性终点了。
但如果放在算力攻坚的终局审视,或许还有两个更宏大的时代级问题:
一是新型计算架构。整个产业都到了突破传统冯·诺依曼架构存储计算分离的性能瓶颈的关口,存算一体的新型大一统计算体系架构,被越来越多提及。
二是新型颠覆式计算形态,比如量子计算。
有意思的是,这两大时代级问题,任何一个对于当前算力格局的影响,可能都会是核弹级的。
总的说来,只有如此全局式透视,以终点看起点和过程,才能更本质地看清阿里造芯、平头哥模式的归、去、来。
这背后是一家公司对于科技需求和科技发展挑战的逢山开路,但同样也是时代趋势的具体映射和展现。
或许不用再赘述和论证了。
一个时代有一个时代的算力需求和挑战,于是一个时代也就有一个时代的算力解决方案,进而一个时代就会有一个时代的造芯模式。
平头哥模式,就是代表算力发展方向的代表性模式。
如何评价「平头哥模式」?
最后,芯片全流程work,整个模式跑通,也意味着平头哥出发时被寄予的期望和质疑,都到了可以重新评估的时候。
阿里造芯以来,噱头、热点和形象工程之说,从未停止。
但随着倚天710年度性交卷,成为中国首个云上大规模应用的自研CPU,此论可休矣。
而且倚天710创造的纪录、展现的效用、开启的范式,必将带来造芯模式上更大的启发和变革。
其次,过去几年云计算相关的格局洗牌猜想,同样也到了有理有据的结辩时刻。
过去的市场份额是阿里云一骑绝尘,因为出发得早。接下来的格局也依然会是阿里云不可争锋,因为基于芯片和底层软硬一体架构的壁垒,无人能比,短时间内无人能及。
而且业内业外,一种讨论和新观点也正在愈演愈烈:
新时代的科技竞速,本质就是以算力为基建的竞速。
下层基建决定了上层生态。底层基建决定了发展速度。
或许完全强调算力的作用,太过绝对。但谁也无法否认的是,算力正在成为科技发展中最基础也最重要的生产要素。
而对于阿里和阿里云来说,过去的积累和沉淀,在当前的时代级变革前显得如此恰逢其时。
芯片、操作系统、数据库、存储、网络和上层应用……拥有全栈完整自研软硬件技术体系的云计算提供商,中国目前仅此一家。
这是阿里之幸,也是时代给予的机遇。科技变革的规律,通常都是哪里有痛点需求,哪里就有解决方案和应对之策。
但上一波科技浪潮涌动之时,中国玩家没能参与其中,基础半导体的研发和定义,也完全处于跟随状态。
所以现在,终于终于有机会,可以在全新造芯范式下,从新起点出发,参与硬科技创新的研发和定义。
或许这一次,也真正有这样有意思的机会——
源自中国文化里的兵器,比如玄铁、含光、倚天、屠龙……被更多人追问、了解和感叹。
— 完 —