现在在普林斯顿大学从头搭建NLP小组
杨净 丰色 发自 凹非寺
非常AI | 公众号 QbitAI
清华姚班大神陈丹琦,刚刚有了最新荣誉。
斯隆研究奖得主。
斯隆研究奖,素来有“诺奖风向标”的称号。
获得这个奖项的研究者,将得到为期两年75000美元的奖金。
此前,与陈丹琦同为姚班毕业生的鬲融、马腾宇,都曾因获此奖项而引发关注。
说回到陈丹琦本人,正是计算机科学领域近来最受关注的华人青年学者之一。
她是08级清华姚班校友,也是信息学竞赛圈内颇具传奇色彩的一位女选手——CDQ分治算法就是以她的名字命名。2008年,她代表中国队斩获一枚IOI金牌。
而她那篇长达 156 页的博士毕业论文《Neural Reading Comprehension and Beyond》,更是一度火爆出圈。
不光获得当年斯坦福最佳博士论文奖,还成为了斯坦福大学近十年来最热门毕业论文之一。
现在,她已前往普林斯顿大学从头搭建NLP小组,成为该校计算机系的助理教授。
从零搭建NLP小组
此次获奖的原因,正是基于陈丹琦在NLP领域的成就与潜力。
目前研究方向主要聚焦在两方面。
一个是开发基本的方法来学习语言和知识表征,以及它们之间的相互作用。尤其是两个问题:对人类知识(比如陈述性、常识性)如何从文本中获得,以及智能系统如何表示、检索、推理、使用这些知识。
另一个是建立实用的系统,包括问题问答、信息提取和对话代理,尤其是如何将这些方法推广到现实场景中去。
她的小组成员中,有一位也是清华毕业生,2019年清华特奖得主高天宇。
最新一篇研究,他也参与其中。
这篇研究提出了一种全新评估机制——基于预测历史的问题重写机制,该机制可以跟人类的判断形成更好的关联,让对话问答(CQA)效果更好。
来到普林斯顿大学之前,她曾是斯坦福大学的博士研究生,师从NLP大神Christopher Manning。
这可是位泰斗级别的人物,他是斯坦福NLP小组的创始人。
他写的书籍《Foundations of Statistical Natural Language Processing》(统计自然语言处理)和《Introduction to Information Retrieval》(信息检索导论),几乎是每个NLPer的必读入门书。
在Manning教授的指导和学习下,2014年她发表了一篇《A Fast and Accurate Dependency Parser using Neural Networks》,可以说是深度学习依存分析方法的“开山之作”。
他们的方法在保持精度的前提下,直接将解析速度提高了 60 倍。
而她在学术界的影响力还在继续,最典型的就是在博士毕业之际写的那篇156页论文,上线仅四天就获得上千访问量。
这篇论文主要聚焦于神经阅读理解,简言之,就是构建于深度神经网络之上的阅读理解模型。包含了阐述原理构建模型、以及结合现有成果构建实际应用场景两个部分。
去斯坦福拜入NLP泰斗门下,之后再去普林斯顿搭建NLP小组,回想这两段经历,陈丹琦曾这样解释她做出选择的原因。
陈丹琦告诉叉院学姐公众号:
我选斯坦福的时候其实不太知道自己要做什么,是后来选了research group才定的方向。
去普林斯顿是因为我认为对我来说这是个机会,一个成长和承担的机会。
因为普林之前没有NLP,能在这边能建立一个自己的group。
算法以她的名字命名
每次提到清华姚班,一定都少不了陈丹琦的名字。
事实上回顾她的整段经历,如今的成就少不了她自身的努力和周遭的支持。
她出生于湖南长沙,高中就读于长沙市雅礼中学。
这所学校是信息学奥林匹克竞赛强校,历史上一共9名学生获得过IOI(国际信息学奥林匹克竞赛)金牌,比以“信息学竞赛第一校”著称的绍兴一中还要多一名。
而陈丹琦就是在2008年——高三的时候拿下了第20届IOI金牌,也成为了湖南省首位金牌女选手。
并以此保送到清华姚班,与马腾宇、余佳俊等成了同学。
他在陈丹琦很小的时候就发现女儿对数字很敏感,且做题速度、思考问题的全面性都比同龄孩子厉害。
于是,父亲就对她进行了有意识的培养:她从三年级就开始练奥数,初一参加全国数学联赛就获得了湖南赛区二等奖,初三获得了特等奖,并开始接触信息学。
奥赛圈耳熟能详闻的“CDQ分治算法”就是这位学霸在集训期间提出来的,并以她的名字命名。
还有著名的插头DP,也是她在集训队时的成果。
基于这个工具,她还发表了篇论文《基于连通性状态压缩的动态规划问题》。
据当时报道,在学习之余,她也很会放松自己,最爱看《名侦探柯南》,还练得了一手好行书。
也正是在这一段奥赛征程中,她遇到了自己未来的丈夫——俞华程。还在博士毕业论文中狠狠秀了一波恩爱。(手动狗头)
嗯,就是下图最右边这位帅小伙。
陈丹琦在致谢部分表示,她从15岁(上高一时)就认识了他,从高中的竞赛到清华的本科四年,再到一起去斯坦福读计算机博士,最后在博士毕业前四个月结婚,俞华程一直都是他最好的朋友、最敬佩的人。
而俞华程本人,也很厉害,他在斯坦福大学读博期间,因为发表多篇重要论文而提前2年毕了业,随后在哈佛大学做博士后研究,主要关于理论计算机,最后也成为了普林斯顿大学的助理教授。
除了这些经历之外,陈丹琦还不止一次呼吁女性也要更多参与到理工、计算机学科建设当中来。
她曾在“叉院学姐”采访中表示:
不要刻意强调女生不擅长学工科、计算机这个事情。
男女之间的GAP会越来越不存在。
计算机领域还有多位华人获奖
本次斯隆奖一共有118名来自化学、数学、物理、计算机等领域的科学家获得。
其中,计算机领域一共颁给了20名全球科学家,其中包括5位华人,而华人获奖者中,最多的是来自清华的校友,除了陈丹琦还有:
07级清华电子工程系本科、现CMU助理教授方飞。
她博士毕业于美国南加州大学,主要研究方向为博弈论和机器学习。
03级清华自动化专业本科、控制科学与工程专业硕士毕业生、现UCLA助理教授顾全全。
他的研究方向为统计机器学习,重点是开发和分析用于机器学习的非凸优化算法,ICML 2021年他有8篇论文都被接收。
还有两位华人获奖者为:
港科大校友宋舒然,现哥伦比亚大学助理教授,主要研究计算机视觉与机器人技术。
以及现UIUC教授Li Bo,她的研究方向为机器学习及其安全、隐私和博弈论。
而在计算机科学方向之外,本次斯隆奖有6名华人学者获数学奖,其中2名来自北大数院,另有3名获物理奖。
参考链接:
[1]https://sloan.org/fellowships/2022-Fellows
[2]https://antkillerfarm.github.io/dl/2018/01/17/Deep_Learning_31.html#%E6%A6%82%E5%86%B5
[3]https://stacks.stanford.edu/file/druid:gd576xb1833/thesis-augmented.pdf
[4]https://www.emnlp2014.org/papers/pdf/EMNLP2014082.pdf
[5]https://arxiv.org/abs/2112.08812
[6]https://mp.weixin.qq.com/s/q_IkEt3NhwtJIkKDr6OhNA