存算一体芯片已到大规模应用前夜,两大技术方向怎么走?丨对撞派 · 圆桌实录
2022-07-13 10:14:44 来源:非常AI非常AI智库 发自 凹非寺
非常AI | 公众号 QbitAI
存算一体技术已成为目前芯片领域的热门话题之一,学术界与产业界都在关注其发展动态。
对于一项创新技术,从理论到应用落地会经历哪些环节?怎样布局以确保把风险降到最低?
过去两周,非常AI对撞派推出了「存算一体芯片」专题,先后邀请到做存算一体大算力AI芯片研发的后摩智能,和国内最早入局存算一体且已实现量产的知存科技,从不同角度与我们探讨了存算一体技术的价值、潜力以及关于商业化的思考。
在这一系列专题中,我们聊到了存算一体芯片的定义、技术路线、行业现状、产业生态等等……
精华版文字内容在此,快来看看业内人士怎么说~(文末还有彩蛋噢)
第一场:对话后摩智能
后摩智能专注于存算一体技术的大算力AI芯片研发。通过底层架构创新,大幅提升芯片性能,可用于智能驾驶、泛机器人等边缘端及云端推理场景。
对谈嘉宾:
信晓旭(左一):后摩智能创始人兼产品副总裁
孙广宇(右一):北京大学集成电路学院副教授
Q1:如何定义存算一体,以及如何理解其深层价值?
A1:存算一体是让计算单元和存储单元的距离拉近,从而增大它们之间的带宽。从这个角度讲,存算一体会有不同的技术路线(计算单元和存储单元距离的远近),核心目的是减少距离和增大带宽。
不同路线的技术成熟度:
从学术界来讲,在计算上不存在技术成熟度,毕竟都是用logic来做,成熟度指的更多是存储成熟度。SRAM、DRAM、Flash相对来说是成熟的存储工艺,新型工艺像MRAM、RRAM,成熟度各不相同。成熟的工艺并不代表一定会比其他都好,这里面需要做各种设计权衡。具体来讲,不能单一地认为距离近了就一定好,或者距离远了就一定不好,同时需要考虑场景和工艺成熟度以及应用特点。应该在整个大的领域里根据应用选择最合适的工艺和制程,去做最合适的设计。
从器件来说,可以进行成熟度分类,但从设计本身来讲成熟度/优势对比,没有唯一的答案。
Q2:在产业应用当中应该如何进行技术路线选择?哪些因素会影响优先选择的方向?
A2:技术路线和应用场景是强相关的,现在存算有两个大方向,一个是偏digital(数字)的CIM-D,一个是偏analog(模拟)的CIM-A,这两种路线适合的技术场景不太一样,由它们的技术特点决定。CIM-A看起来精度比较低,但其能效比在低精度的情况下更好,在AIoT中偏consumer的场景里,CIM-A更有竞争力;对精度要高的场景,比如自动驾驶领域,会用CIM-D的方案。
需要充分考虑技术特点能不能解决场景里面用户和客户的实际问题,对于后摩来说,从定义最后的目标市场,产品整个策略的角度,充分考虑技术和产品的匹配度,是一个综合考量。
Q3:后摩智能是如何思考和布局软硬协同的?
A3:首先,简单拆分软硬协同,把它分成两部分,一个是偏应用侧的。这部分我们把它留给客户和合作伙伴去做,因为他们更懂这部分。在更贴近底层硬件的这部分,比如说硬件抽象层、编译器、基础的工具链等等,这些和硬件贴得更近的这部分是我们自研的,那我其实刚才已经基本提到了您回答的这个问题。我们做这件事情软硬件协同的整体的考虑就两点。
后摩做软硬协同考虑两点:
1)从目标市场,场景来反推,给硬件团队一个明确的目标。比如说聚焦在偏CV的场景里,硬件团队就会针对这个场景做优化。
2)在应用性上,会充分考虑用户的迁移成本,后摩在这部分的学习成本上做了充分考量。
Q4:业界目前都在关注新型存储器的研发进展,新型存储器的优势和特征是什么?
A4:新型存储器包括RRAM, MRAM, phase change memory(PCM), 铁电等。存储介质最开始做是为了解决存储本身的问题,在演进过程中发现它的新特点可以去做存算。不同的存储器在器件本身的设计特点以及反应出来的特性都有所不同,从架构角度讲,业内比较关注访存的延迟(器件如何做),功耗,读写的寿命,可靠性等。
新存储介质里相对成熟的是MRAM,它的好处是读写速度快(接近SRAM),密度比SRAM 高,读写次数多(耐久性好)。
PCM也有商业化。Intel的3D Xpoint,密度比较高,适用数据中心这种比较大的存储介质,可以去存比较大的数据。问题:磨损寿命有限,有待优化。
RRAM,做起来简单(结构简单),可以用不同的参数来做,未来可以做一个性能不错,密度比较高且在不同层次都能去用的存储器。现在面临的问题是稳定性不够(variation大),需要器件和foundry层面一起对它进行打磨。
新器件未来会有不同的适用层次,新器件不一定是要替代传统器件,而且新器件之间也会是协同去做。因为原来的存储架构是分层次的,走到存算的领域后,不会是一个打平的状态。这里面也会是不同层次。
Q5:后摩智能对于新型存储介质的布局和想法是怎样的?
A5:后摩的规划有两条线:一条是产品线,一条是技术线。
产品最后要给到客户,首先要确保它一定是基于成熟的技术。当前的产品是基于成熟的SRAM在做,基于SRAM做相对于传统架构也有几倍的能效比优势。
技术线会先产品一代做新介质的探索,达到产品可用需要做技术的验证,会提前摸清楚各个参数是不是能够达到产品要求。有可能最后的产品是一个mix,RRAM+SRAM的组合,大家在各自里面解决的问题是不一样的,但整体来说新的技术一旦它在某一个点成熟,能解决问题,就会考虑把它用起来。
一代不止一款产品,当前基于SRAM会有2-3颗芯片出来,根据应用场景(自动驾驶,泛机器人)也会是高中低几个档位的——一代芯片里可能会有几款不同的产品。等这一代芯片差不多之后,新器件的探索有机会帮助进一步提升下一代产品的竞争力。
按照传统的方法,2-4年之后,产品的提升在10%-20%,看不到非常大的跳跃——技术生命力较差;在存算里,学术界和产业界积极探索,因为它的生命力非常强,一旦一个技术突破后,就会有指数级的跳跃,产品的竞争力会比之前架构下的有非常大的飞跃。
Q6:存算一体在产业界发展的关键因素有哪些?
A6:首先要选对方向和场景,存算一体技术能够真正解决客户场景里的问题,这样落地的速度会更快,商业闭环也会更快。存算要有成功的案例,实现商业闭环,能够给产业界更大的信心。
如果闭环的场景是个相对大的场景,能够带动更多人关注更大的产业,这对于存算的发展将会起更大的推动作用。一旦一个大的场景出来,会带动更多产业界和资本圈的人来关注,加速商业化进程——找对大的场景快速落地。
第二场:对话知存科技
知存科技专注存内计算芯片领域,创新使用Flash存储器完成神经网络的储存和运算,解决AI的存储墙问题,提高运算效率,降低成本。
对谈嘉宾:
王绍迪:知存科技创始人兼CEO
Q1:近存计算和存内计算两种技术路线会带来哪些后续的区别,知存如何选择?
A1:技术路线在后面会完全不同。近存计算解决的是冯诺依曼架构下的数据搬运问题,它面向的是更广范围的应用。思考的问题是对于CPU、GPU如何把数据和存储拉得更近,应用场景针对的是数据量大的场景,包括服务数据中心、矿机;存内计算是用存储器做计算,在它的系统中没有GPU、CPU、NPU这些,它本身就是计算类的芯片,它自己去替代计算类的芯片,直接在存储器上完成计算,它的应用场景大部分在人工智能场景。
知存布局的场景:知存创始团队从2012年开始做存内计算,主要应用场景是泛人工智能场景,存内计算可以应用在各种各样的人工智能领域,人工智能中用的计算大部分是深度学习,深度学习95%以上用的都是矩阵乘法,所有矩阵乘法用存内计算去做都可以大幅提高效率。
存内计算可以应用于各种各样的人工智能场景,在有些场景它的优势很强,有些场景优势相对较弱。整体来说,算力需求越大,对能效要求越高的场景,存算一体的优势越强。
Q2:存算一体目前处在产业发展的哪个阶段?
A2:存算一体的概念在上世纪60年代就有,前面没有兴起的原因有两点,一是那时候存算一体可以解决一部分性能提升,但当时能解决的部分在整个系统中只占到10%-20%,只解决这个问题是没有意义的,后来随着人工智能时代到来,需要的算力很大,这时候存算一体就能解决90%计算的问题,它的存在就有意义了。
另外是在过去几十年存算一体没有真正出现也是因为摩尔定律还在持续往下走,在摩尔定律能持续往下走的时候,我们看不到任何架构的创新,大家不需要做架构创新,每一到两年换一代芯片的工艺,性能自然提升几倍,成本自然降低,并且性能提升的速度非常快,不需要做架构上的创新。
但到2010年之后,进入到后摩尔时代。后摩尔时代的架构创新是必要的,摩尔定律已经走到尽头,加之人工智能时代到来,存算一体应运而生,受到越来越多关注。最早在2011年,学术圈也开始提倡去研究存算一体。2017年,知存成立,算是第一批做存内计算的公司。目前存内计算中有一些技术已经可以落地了,这个时候需要产业界加大投入,把它做成好的产品。还有很多的技术是需要开发的,存内计算未来的发展还有大概10年的过程,存内计算本身也有一个类似“摩尔定律”的发展过程,快速迭代,包括工艺方面代工厂针对存内计算专用的工艺上的提升。其次是先进的材料,目前能够量产的存内计算存储器只有Flash和SRAM新型的存储器(emerging memory)更适合做存内计算,需要更多在新型存储器件上的研究。另外,存内计算从算法到供应链生态上也需要产学研结合,相互融合促进发展。产业界落地一部分,学术界/研究所继续研究下一代,不断地往前推进。知存科技会持续加大对工艺、工具链、技术标准化等方面的投入,推动产业生态共建。
Q3:在发展的每个阶段中遇到的瓶颈是什么,有哪些解决方法?
A3:知存目前第二代产品已实现量产,约每月10万片的量级,且已经落地到智能可穿戴设备市场。从16年验证概念到现在量产落地,需要很多工程化;还有在产品层面去解决存内计算存在的一些问题。
存内计算有自己的优势:运算效率高,运算密度大,运算成本低;但还是一个新兴技术,测试标准、量产方法、测试方法、计算范式跟现有的方式都完全不一样,需要一步步建立,建立之后还需要保证可靠性。
在量产过程中遇到了很多之前没有遇到的问题,因为存内计算和存储器不同,和传统的计算芯片也不同。比如存储器覆盖的应用和存内计算所覆盖的存储器的应用方式是完全不一样的。像存内计算遇到的问题,可能存储器领域之前几十年都没有遇到过,这些都需要一步步去解决,才能把存内计算从技术demo走向量产。
Q4:对于行业而言,目前最重要的一个节点是什么?
A4:存算一体正处在量产到大规模应用的关键阶段。知存科技研发的存算一体芯片已经达成每年千万片量级的小规模量产,我认为下一个关键节点,算力将达到16Tops以上、精度将达到10-bit以上、成本将比现有芯片有2-5倍的优势,量产规模上亿片。存算一体芯片将在更大规模的应用中具备绝对优势。
Q5:存算一体领域的进入门槛有哪些?
A5:主要在于工艺、架构层面,做存算一体最大的困难在于,无法预判会遇到什么样的问题。存算一体的设计方式跟数字电路和模拟电路都不一样,它是把模拟技术跟存储器结合在一起,所以应用方式也不一样。
现在做一个大型芯片通常是通过写代码,代码自动化通过EDA工具生成一个芯片设计,EDA工具保证芯片设计出来的可用性,只要工艺没有问题。但是存算一体没有EDA工具指导,很多东西需要手动设计。
另外,存算一体芯片的生产工艺不保证手动设计仿真出来的东西一定可用,因为它的用法跟传统的芯片不一样,在foundry厂那边的工艺上不保证存内计算所应用的部分。只能通过不断地测试、验证解决,花费的时间可能是几年——需要玩家持续性探索的能力。
Q6:存算一体产业的未来趋势是什么?如何去看待这项技术?
A6:现在在芯片行业,很多人都在观望下一个关键节点的出现,发生大规模的替代。对人工智能整个产业来说,存算一体技术的逐渐成熟,将带来更低成本,更高算例、更高能效、更低功耗,帮助更多人工智能落地。可以说存算一体将成为是未来人工智能时代的基石之一。
对于存算一体,首先要保持耐心,作为一项全球范围的新兴技术,还有很多待发现和解决的问题;其次要保持期待,重点关注未来存算一体可以做的更多的事情。
One More Thing
错过了直播的小伙伴可以点击我们的直播回看视频,了解更多技术细节和问题详解~
第一期:后摩智能
https://www.bilibili.com/video/BV1Tv4y1T7xr
第二期:知存科技
https://www.bilibili.com/video/BV1w3411A7v1
在存算一体芯片领域,智库后续还会推出深度报告与金句视频。欢迎扫码添加小助手,进入垂直社群:
如果您深耕于存算一体芯片领域,欢迎扫码添加分析师进行深度讨论与交流。
关于非常AI智库:
非常AI旗下科技创新产业链接平台。致力于提供前沿科技和技术创新领域产学研体系化研究。面向前沿AI&计算机、生物计算、量子技术及健康医疗等领域最新技术创新进展,提供系统化报告和认知。通过媒体、社群和线下活动,帮助决策者更早掌握创新风向。
关于对撞派:
非常AI智库旗下的高端圆桌栏目。
对撞派致力于邀请前沿科技领域的专业人士,如创业公司CEO及CTO、资深科学家、专业投资人等,对特定趋势进行深度讨论及解读。从业内与专业的角度,帮助读者更为准确地把握未来科技动向。