以前一直是“小农作坊模式”
梦晨 发自 凹非寺
非常AI 报道 | 公众号 QbitAI
AI for Science,这个概念是什么时候火起来的?
一个引爆点,在2021年7月,AlphaFold2开源并一口气预测了98.5%的人类蛋白质结构,向世人展示了AI在科学研究领域解决实际问题的巨大潜力。
到了年底,各大机构发布一年回顾和未来预测时,AI for Science和它的缩写AI4S便在一次次曝光中深入人心。
一方面,数据驱动被誉为科学研究的下一个范式。另一方面,科研应用也被看成AI落地的新战场。
如今距离AlphaFold2差不多一年过去,AI4S进展如何?
除了背靠谷歌、财大气粗的DeepMind继续发光发热,搞出了AI辅助数学家证明定理、AI控制核反应堆等成果之外,还有一个趋势值得关注:
开源工具和基于开源工具产生的创新成果呈爆发趋势,AI4S的研究范围也扩展到更多基础问题领域。
研究水,有借助DP-GEN深度势能生成工具以第一性原理精度预测水在零温零压到2400K、50GPa区间的十余种相变。
这一成果登上物理学顶刊Physical Review Letters,并被选为“Editors’ Suggestion”。
研究火,有结合异构并行与AI加速器构建燃烧反应流体力学计算工具的开源项目DeepFlame。
这一项目已发布第一个版本,并与多家国产ARM架构芯片完成适配。
最近,更是有研究基于一系列开源框架,在第一性原理数据及机器学习势函数之间构建桥梁。
显著提升了分子动力学模拟在规模、精度等方面的天花板。
这些新研究方法和开源工具要解决的问题通常离大众生活并不算近,也缺少明星公司的影响力,所以往往无法引爆话题、登上热搜。
但对于相关科研工作者来说,这些却是关系到他们研究方向和工作效率的大事。
在聚光灯之外,一群积极探索机器学习与物理建模结合的人,正聚集在名为DeepModeling的开源社区。
DeePMD-kit是社区里最早、也是影响力最大的项目。
它通过机器学习、高性能计算和物理建模的结合,把分子动力学极限提升至10亿原子规模同时保持高精度。
这项成果在2020年获得有“超算界诺贝尔奖”之称的戈登·贝尔奖,还与“嫦娥五号首次实现月面自动采样返回”和“人造太阳”等成果一起当选2020中国十大科技进展。
到现在,DeepModeling社区已发展成跨多个学科的开源平台。
发展出来的项目还有主要针对凝聚态材料模拟计算的ABACUS,构建准确高效的密度泛函模型的通用机器学习框架DeePKS-kit,偏微分方程数值解算法库FEALPy等。
就最近这一个月,他们还密集发起了四个新项目。
分别是前面提到的燃烧反应流体计算平台DeepFlame,生产级可微分力场计算引擎DMFF,旨在共建AI4S和云原生时代科学计算工作流的框架dflow,以及希望帮助所有对AI4S感兴趣的人能够快速了解该领域的教学文档项目AI4Science101。
快速发展背后的主要推动力量,是一家从名字上就可以看出是为AI4S而生的新型研究院:
北京科学智能研究院(AI for Science Institute, Beijing,简称AISI)。
为AI for Science而生的研究院
AISI是一家年轻的研究院,2021年9月才正式成立,却已闯出不少名堂。
除了研究工作、推动建设DeepModeling开源社区外,还推动创办了新的机器学习期刊JML(Journal of Machine Learning)。
JML希望在传统学科期刊和机器学习领域的会议之外,成为AI for Science在发展初级阶段一个理想的学术交流平台。
这家研究院为何聚焦于AI for Science方向?
还要从院长鄂维南院士说起。
鄂维南从事应用数学、科学计算研究多年,并于2011年当选为中国科学院院士。
80年代起,他就在推动用多尺度模型解决多体问题、药物和材料设计、湍流和非牛顿流体力学等难题。
但在这些问题中,长期存在着“维数灾难”。
维数灾难最早由动态规划创始人理查德·贝尔曼提出。
指随着维数的增长,分析高维空间中数据需要的计算量呈指数级增长。
例如在高维空间中要达到同样的采样密度,需要的采样点数量呈指数级增长,这让经典的计算方法难以适应复杂问题的研究。
因为一次偶然的尝试,鄂维南课题组在尝试用AI辅助分子动力学模拟时,获得了5-6个数量级上的加速效果,这使鄂维南开始意识到深度学习正是解决维数灾难的绝佳工具,因为深度神经网络的本质就是在逼近高维函数。
如图像识别是通过特征提取把图像内容转换成高维向量。AlphaGo下围棋也是在高维空间中求解满足最优策略的方程。
AI for Science的基础,便是将深度学习这一能力应用于各种科学问题。
在这一思路指导下,鄂维南带领团队于2017年提出深度势能(Deep Potential)分子动力学方法,用深度学习方法去计算上亿个原子之间相互作用的势能函数。
△深度势能方法示意,来自Phys. Rev. Lett. 120 (14), 143001
后来获戈登贝尔奖的DeePMD,以及DeepModeling开源社区就是在此基础之上发展而来。
鄂维南对于后来成立研究院的思考和行动,也是从17年底就开始。
他的学生、也是后来AISI的副院长张林峰认为鄂老师不仅是个学者,还是个旗手。
18年,鄂维南就在北大召集了很多方向的学者共同探讨AI for Science。
这可能是AI for Science这一主题在世界范围内首次大规模被讨论。
后来他也在国内国际多个场合呼吁“科学是人工智能的下一个主战场。”
包括在美国数学学会会刊发表题为《应用数学新时代的曙光》的观点性文章,获得广泛关注。
2020年9月他从普林斯顿回国,开始召集团队筹建研究院。
一年后,AISI研究院终于正式挂牌成立。
今年7月,鄂维南还受邀在四年一度的国际数学家大会(ICM),也就是菲尔茨奖的颁奖活动上作1小时报告。
全球仅有21位数学家获此荣誉,而鄂维南将成为中国大陆的第三人。
到时他也将以AISI院长这个新身份向全球数学家继续呼吁推广AI for Science。
既然已经有了开源社区,为何还要以研究院的形式开展活动?
首先,AI for Science带来的新范式需要机器学习、高性能计算和物理模型的紧密结合,缺一不可。
这就需要有一个名义把各种背景的人聚集到一起。
一般情况下,学校里总是缺少工程师类人才,企业的话又难以招揽大量科学家。
独立研究院,就成了开展AI for Science工作比较有效的前沿阵地。
有了实体的研究院做支撑,开源社区这个无实体的组织在招募成员、吸引投资、发表研究成果等方面也更方便开展活动。
AISI成立后已聚集来自国内外顶尖高校、科研机构和企业的交叉学科的一批核心成员。
当前阶段,AISI的目标在于AI for Science基础设施建设和前沿科学问题探索,要为科学发展打造平台化的工具。
要是把目光放更长远,AISI还希望推动整个科学研究从“小农作坊模式”转换到平台化的“安卓模式”。
平台化科研的新模式
如何理解科研的“小农作坊模式”?
一方面指科学家在各自的实验室里单打独斗,用着难以修改的闭源祖传代码,也容易形成垄断优势。
另一方面也指科研缺乏自动化的流程,需要大量有经验的人员做人工干预。
AISI的战略发展顾问孙伟杰认为,传统模式下的科研工作者实在是……太苦了。
近年来互联网和AI行业都在“起飞”,其中从业者有了明确的分工、享受着完善的基础设施开发工具。
相比之下科研工作者还在面对低效的工作环境和协作模式。
而“安卓模式”,可以理解成科研的规模化大生产,借鉴Linux、安卓等平台的成功经验,用开源带来滚雪球效应,聚集人才、数据、算法和应用场景,为科研创新加速。
与AI在安防、医疗等需求比较集中的场景相比,AI for Science在各个学科的需求更分散,经历的链条也会更长。
于是在这个“安卓模式”之中,既需要开源社区来提供工具,研究院去做创新,也需要企业把这些创新成果开发成产品。
比如AISI核心成员创办的深势科技公司,使用分子动力学方法DeePMD打造了微尺度工业设计平台。
其中药物设计平台Hermite已被多家药企研发人员使用,不久前还成功复现AlphaFold2打造了开源的Uni-Fold,集成到平台中解决了蛋白质结构的数据来源。
于是,DeepModeling开源社区、AISI研究院、深势科技等企业以及学界业界更多合作伙伴一起,共同组成了AI for Science平台化科研模式下从创新到落地的完整生态链。
那么在AI for Science之前,传统科学计算领域为何没有出现大的开源平台?
AISI副院长张林峰认为有三方面原因。
先是历史原因,尽管互联网时代科学家之间的交流和连接已经极为方便,祖传代码还是发挥着关键的作用。
再有是科研看重创新的性质和学术评价体系也不鼓励形成平台,在顶级期刊发表论文会给研究者带来很大声望,但开源工具的开发者却很难直接受益。
最后,是AI给科学计算领域带来的新变化。
有了AI的参与势必需要新的基础设施,既包括AI的三大要素数据、算法和算力,也包括在此基础之上构建出的模型和工具链。
并且AI从业者与IT工作人员的天然交集,也给AI4S带来了平台化思维的基因。
当然,这里面还是需要有具体的人来推动,不可能说整个领域有一天大家都觉醒了,自发的形成一个平台。
DeepModeling开源社区以及AISI研究院,正是要做这一批先行动起来的人。
无论是研究具体的交叉领域问题,还是更宏大的推动科学研究范式革新,都需要更多同路人。
AISI目前正在寻找在交叉领域具有良好科研素养、富有创造力的优秀学者加入。
招聘方向包括电子结构、分子动力学、计算辅助材料设计、计算流体力学、燃烧算法、高性能科学计算等,可点击下方链接或阅读原文了解更多。
AISI北京科学智能研究院:
https://mp.weixin.qq.com/s/gndDBUlOiV_BCgtp2SBkpA
DeepModeling开源社区:
http://www.deepmd.org
参考链接:
[1]https://mp.weixin.qq.com/s/4GUXBgGfPoiuSvxTj9M6aQ
[2]https://developer.nvidia.com/blog/accelerated-molecular-simulation-using-deep-potential-workflow-with-ngc/
[3]https://icm2022.abstractserver.com/program/#/details/persons/243