挑战万人迷胡悦儿10月9日,诺贝尔基金会宣布授予DeepMind公司的Demis Hassabis博士和John Jumper博士,和华盛顿大学的David Baker教授诺贝尔化学奖。这三名科学家分别诞生于60、70、和80年代,他们沿着不同的人生轨迹,分别在利用人工智能预测蛋白结构和计算蛋白设计方面完成了造福全人类的研究突破。在今天的这篇文章里,让我们一同来看一看他们的故事。
Demis Hassabis出生于英国伦敦的一个富有多元文化的家庭,有着希腊和华人血统的他由于父亲生意的关系经常搬家,但这也在无形中培养了他在商业和研究上的冒险精神。Hassabis自小便展现出“神童”级的天赋。当年仅四岁的他看见父亲和叔叔下棋时便请教他们该怎么玩,他不仅迅速地上手还很快击败了他们两个。他在八岁时便在他人生当中的第一台电脑进行编程,开发了棋盘游戏奥赛罗(Othello)。到了13岁时,他便已经成为国际象棋大师,在那个年龄组中排名世界第二。在他享受象棋带给他的智力冲击的同时,他也决定将这样的天赋应用到更广的领域。他在17岁时加入了电脑游戏公司牛蛙制作(Bullfrog Productions),并参与设计了战略游戏《极道枭雄》(Syndicate)的设计,并在后来担任极具影响力电子游戏《主题公园》(Theme Park)的首席程序员。这款游戏的畅销催生出一系列管理模拟游戏的诞生。
1997年,Hassabis以计算机科学专业最高荣誉自剑桥大学毕业,并在隔年创建自己的游戏公司Elixir Studios。在经营Elixir期间,他继续参加游戏比赛,他从1998年到2003年连续五年夺得Pentamind国际象棋锦标赛冠军。此外,他还是世界扑克系列赛六个不同赛季的冠军。然而,拿遍无数游戏、智力竞赛的他始终离不开这些令他魂牵梦萦的问题:“大脑是如何学会掌握复杂任务的?”、“电脑也能做到同样的程度吗?”在2015年接受采访时他便这么说:“事实上我的整个职业生涯,包括我开发游戏的时候,都是为了最终成立AI公司。少年的时候我就决定,AI会是最有趣和最重要的事业。”
为了回答他心中的问题,28岁的他在2005年重返校园,开始了他在伦敦大学学院(UCL)认知神经科学的博士学程,并在2009年拿到学位。他的博士研究专注于自传体记忆(autobiographical memory)和失忆症领域。他在该主题上参与了多篇发表在《自然》、《科学》和PNAS的论文。他在PNAS上的论文“首次”证实,大脑海马区损伤(导致失忆症)也会损害患者想象其他情况的能力。Hassabis证明了想象功能和情景记忆之间的神经学联系——两者都需要在脑海中构建场景的能力,这项发现被《科学》杂志评为“年度十大科学突破”之一。
2011年,Hassabis创立了人工智能公司DeepMind Technologies。他将公司的使命定义为解决“智能问题”,然后利用人工智能“解决其他一切问题”。Hassabis将神经科学和机器学习的见解与计算机硬件的最新发展相结合,寻求构建一种通用学习机制——“通用人工智能”(AGI)。
Hassabis和他的DeepMind同事最初专注于创建学习算法来掌握游戏。到2013年,他们创建了一种名为Deep Q-Network(DQN)的算法,可以“以超越人类的水平”玩电脑游戏。除了屏幕上可见的像素外没有其他输入,除了“获得最高分”外没有其他指示。测试结果显示,DQN在引入游戏30分钟内就成为了游戏太空侵略者(Space Invaders)世界上最优秀的玩家。而DeepMind的研究也引起了谷歌的注意,谷歌于2014年以超过6.5亿美元的价格收购了DeepMind,而Hassabis仍然担任DeepMind的首席执行官。而谷歌对DeepMind的收购也很快被证明是一项明智之举。谷歌在2016年发表声明,DeepMind所开发的AI算法已经协助降低用于冷却谷歌数据中心的电费达40%。这可能为谷歌未来的电费省下数亿美元。
▲DeepMind所开发的AI算法显著减少谷歌的用电量(图片来源:参考资料[6])
然而DeepMind团队并不止步于此。他们开发了能够以近原子级的水平预测蛋白形状的AI算法AlphaFold。2018年12月,AlphaFold在第13届国际蛋白质结构预测竞赛(CASP)的总体排名中名列第一。尽管取得了成功,但DeepMind的研究人员并不满意:他们希望研究出一种对于实验人员更加有用的工具,误差小于1埃米(原子的大小)。经过多轮的调试和集思广益,DeepMind的研究团队在原来的算法基础上成功构建出了AlphaFold2。
在2020年的CASP上,DeepMind的AlphaFold2系统表现惊艳,在接受检验的近100个蛋白靶点中,AlphaFold2对三分之二的蛋白靶点给出的预测结构与实验手段获得的结构相差无几。有些情况下,已经无法区分两者之间的区别是由于AlphaFold2的预测出现错误,还是实验手段产生的假象。这项成就被公认为解决了50年的“蛋白质折叠问题”。2021年7月,DeepMind发表了该系统工作原理的详细描述,并向全世界免费发布了源代码。它还与欧洲生物信息学研究所建立了一个公共数据库,该数据库正在用人工智能预测的新蛋白质结构填充它们。全球有部分团队已开始使用AlphaFold研究抗生素耐药性、癌症等问题。
2021年11月,Hassabis宣布,他在担任DeepMind领导职务的同时也将任职初创公司Isomorphic Labs的首席执行官。Isomorphic Labs是Alphabet旗下的新姊妹公司,将专注于将人工智能应用于生物技术和医学领域。2022年7月,DeepMind人工智能实验室的研究人员表示,他们已经预测了几乎所有已知蛋白质的结构,这是生物学上的一项重大进步,将加速药物发现并帮助解决可持续性和粮食不安全等问题。他们还扩展了AlphaFold数据库,以包含2.14亿种预测蛋白质,或几乎所有科学已知的蛋白质。这包括人体中的所有蛋白质,以及动物、植物、细菌和许多其他生物体中的蛋白质。而最新版本的AlphaFold3大大扩展了其功能,包括对DNA和RNA相互作用进行建模,这标志着我们对分子生物学的理解有了重大飞跃。
▲AlphaFold 3预测的7R6R-DNA结合蛋白(蓝色)与DNA双螺旋(粉色)结合的分子复合物结构与通过实验发现的真实分子结构(灰色)几乎完全匹配(图片来源:参考资料[9])
虽然人工智能毫无疑问地已在生物医学界带来显而易见的突破,但Hassabis在接受诺奖通知采访时仍十分强调人类科学家的重要性。他表示至少在可预见的未来,这些人工智能算法能让个体科学家做更多的事情。然而因为这些系统是工具,它们非常适合分析数据并在数据中寻找模式和结构。但是它们无法弄清楚应该问什么是正确的问题,正确的假设或正确的猜想。所有这些都必须来自人类科学家。“最好的科学家与这些工具配合使用将能够做出令人惊叹的科学成就,甚至在比以前更小的团队中也能做到,因为他们可以依靠这些工具来完成很多基础工作。”Hassabis说道。
在提到AlphaFold在蛋白结构预测的重大突破时,就不得不提同与Hassabis一同获得今年诺贝尔化学奖的John Jumper博士。他是DeepMind公司AlphaFold项目的首席高级研究员。他和Hassabis共同主导开发了AlphaFold以及后来的AlphaFold2。然而就如同Hassabis“崎岖”多变的职业生涯一般,Jumper最初对蛋白质结构并不感兴趣,相反地,他立志做个理论物理学家。
在2007年自范德堡大学获得物理和数学双学位后,Jumper打算成为一名理论物理学家。他获得了著名的马歇尔奖学金,并被剑桥大学的博士课程录取。然而他很快意识到,研究量子力学的计算方法并不适合他,因此他在获得硕士学位后便重返美国。然后,他在D.E. Shaw Research找到了一份工作,负责开发用于蛋白质模拟的超级计算机,这段经历开启了他进入生物化学学的大门。三年后,他回到芝加哥大学,在Karl Freed与Tobin Sosnick教授的指导下完成理论化学博士学位。Jumper的博士研究方向是蛋白质模拟的统计和机器学习方法,他随后便进入DeepMind从事蛋白质结构预测工作。
Jumper作为AlphaFold项目的负责人,他的角色是多方面的。除了自己进行研究之外,他还积极促进他与旗下团队以及与其他DeepMind团队的研究讨论。他发现在团队环境中,为了共同的目标而努力,研究会更有趣。他特别喜欢机器学习的快速发展,他说:“在不同的时间,新的想法和结果来得如此之快,以至于我觉得我们每周都在重新评估我们解决问题的方法。”
Jumper曾指出对于深度学习系统如何工作的直觉和理解对于开发模型非常重要,而使用直觉来评估结果和发现错误的重要性,是他在范德堡大学接受教育时学到的重要一课。他对当前科学家的建议是找到“好问题”来研究,并指出“好问题需要重要性和可处理性的完美结合。”
值得一提的是,Jumper是超过70年以来最年轻的诺贝尔化学奖得主,自他2017年拿到博士学位以来,在约7年的时间便囊获诺奖殊荣。然而当他在接受诺奖得主采访时表示,他之前认为自己只有10%的机会获奖,这让他感觉有点难受,这像是自己有10%的几率中,但有90%的几率会感到失望。所以他的计划是在颁奖当天睡个懒觉,然后等到他睡醒时就自然会知道自己有没有获奖,不过他的计划并没有奏效,因为他当天没法睡那么久。
在采访当中,Jumper也表示他很高兴计算生物学很快地获得认可。“我喜欢这一切的原因是,我们可以清楚地看到,我们所做的工作与改善人类健康之间有着直接的联系。”他说道。
在接受诺贝尔奖委员会采访时,David Baker教授表示,蛋白折叠的难题从来都具有两面性:一方面是已经知道蛋白的氨基酸序列,如何基于序列预测蛋白的三维结构,而另一面是如果已经知道预想的蛋白结构,能否设计出氨基酸序列来折叠成这样的结构。而今年的诺贝尔化学奖完美地表彰了这两个方向的研究。
1962年,David Baker出生在美国西雅图,父亲是一名物理学家,母亲研究天体物理和大气科学。但是从小在科学家庭中长大David Baker最初对科学却没有什么兴趣。在哈佛大学读本科时,他主修的专业是哲学和社会学,想了解人类的大脑如何做出决定。直到最后一年上发育生物学的时候,名为《细胞分子生物学》的教科书让他对生物学产生了兴趣。Baker博士回忆到,做本科时有一次需要写论文,他问教授能不能写蛋白结构的课题,却被教授泼了一头冷水,“没人搞明白了其中的机理”。想不到的是多年之后他却解答了这个问题。
因为对大脑的兴趣,David Baker在攻读博士时觉得自己会研究神经生物学或发育生物学。他加入了加州大学伯克利分校细胞生物学家Randy Schekman教授的实验室研究细胞的构成(Schekman教授在2013年获得诺贝尔生理学或医学奖)。获得博士学位后,他加入结构生物学家David Agard教授的实验室,原本想花一年时间学些结构生物学,帮助自己建立独立实验室时进行的细胞生物学研究。
然而,结构生物学的魅力深深吸引了他。Baker教授回顾道:“我当时觉得蛋白结构是生物自我组装最简明的例子。”因此当他在华盛顿大学建立自己的实验室时,解决蛋白折叠的结构生物学成为了主要研究方向。
上世纪90年代,Baker教授的实验室开发出名为Rosetta的程序软件,基于蛋白质的生物物理特征,根据氨基酸序列预测蛋白的三维结构。然而,预测蛋白三维结构需要大量的计算力和时间,Baker教授在哲学和社会学方面的经验让他想到了利用团体的力量来解决这个问题。“我的理想是全球各地的人们都可以同心协力,为科学和全球健康做出重要的贡献。”Baker教授说。在2004年,他的实验室开发出一款名为Rosetta@home的软件,任何人都可以在自己家里的计算机上下载这款软件,为解析某些蛋白结构的运算出一份力。截至2008年,接近20万志愿者在自己的计算机上装载了这款软件。
在2008年,Baker教授与合作者又推出了蛋白折叠游戏Foldit,让大众以游戏的方式来解决蛋白折叠的问题。值得一提的是,在2011年,Foldit的玩家帮助成功破解了一款逆转录病毒蛋白酶的晶体结构,成果在《自然》杂志子刊上发表。
2000年,DeepMind公司开发的AlphaFold2在国际蛋白质结构预测竞赛(CASP)上惊艳亮相,不但击败了所有其它参赛选手,而且基于氨基酸序列预测的蛋白质三维结构可与使用冷冻电子显微镜(CryoEM)、核磁共振或X射线晶体学等实验技术解析的三维结构相媲美。Baker教授实验室开发的Rosetta软件也是CASP比赛的常客并一直名列前茅,表面上看,DeepMind是他实验室的竞争对手,AlphaFold2也在比赛中压过Rosetta一头。不过Baker教授并不这样看,在接受诺贝尔委员会的采访时,Baker教授表示,AlphaFold2的横空出世让他真正意识到了深度学习的潜力。Baker教授的实验室也迅速将AlphaFold2的深度学习策略应用到Rosetta软件上,推出的RoseTTAFold系统在预测蛋白质结构上达到了和AlphaFold2相当的水平。
“与其说是竞争对手,我真心认为他们是启迪我认识深度学习威力的人。”Baker教授说。
早在使用最初的Rosetta软件预测蛋白三维结构后不久,Baker教授就意识到了解决蛋白折叠问题的两面性,不但可以基于氨基酸序列预测蛋白的三维结构,还可以基于想要得到的三维结构设计氨基酸序列。利用Rosetta软件,他的实验室在2003年设计出第一个在自然界中不存在的蛋白,名为Top7。
▲用Baker教授团队设计的软件Rosetta开发出的蛋白(图片来源:诺贝尔委员会官网)
基于在蛋白设计领域的深厚经验积累和深度学习算法带来的计算模式突破,Baker实验室近年在蛋白设计领域的突破可以用日新月异来形容。从开发出 ,到 ,他的团队一次又一次地颠覆蛋白设计的规则。这些在基础科学领域的突破也正在通过初创公司的创建改变新药发现和开发的模式。Baker教授参与创建了超过10家生物技术公司,其中今年浮出水面的 由ARCH Venture Partners和Foresite Labs共同孵化,获得启动融资金额超过10亿美元。
诺贝尔委员会在发布的新闻稿中表示,David Baker、Demis Hassabis、和John M. Jumper博士解开了蛋白结构的密码。虽然这三位获奖者拥有不同的人生轨迹,但是殊途同归,共同解决了让科学家困惑了半个世界的蛋白结构预测难题。
|