数据要素产业
人工智能,或可预测蛋白质进化
文|陈根
1972年,美国科学家克里斯蒂安·安芬森因提出“蛋白质的高级空间结构由其氨基酸序列决定”而获得诺贝尔化学奖。
具体来说,天然蛋白质基本上由天然氨基酸以一定的组合顺序排列形成,序列长度不定。天然氨基酸共有20种,化学组成和性质各不相同,它们在序列之间的相互作用决定了蛋白质折叠形成的形状、结构。对科学家来说,氨基酸测序是比较容易完成的工作,但蛋白质三维结构解析的难度却很大,耗时又费力。
如今,以深度学习技术为代表的人工智能已经高度融入生物科学与技术领域,并且极大地推动了生物领域的发展。近日,美国华盛顿大学、伦斯勒理工学院和哈佛大学的研究人员提出了一种升级的阿尔法折叠系统,其能够“构想”出具有稳定结构的新蛋白质。
此前,谷歌公司旗下的DeepMind研发的AlphaFold2人工智能系统在国际蛋白质结构预测竞赛(CASP)上取得惊人的准确度,多数预测模型与实验测得的蛋白质结构模型高度一致,引起了举世瞩目。
在阿尔法折叠出现之前,科学家只知道人体大约2万种蛋白质中约17%的3D结构。已知的蛋白质结构是几十年来科学家在实验室里通过X射线结晶学和核磁共振等方法耗时耗力计算出来的。
而此次升级的阿尔法折叠更加“聪慧”。研究人员向AI提供了完全随机的蛋白质结构的氨基酸序列,并向其中引入一些突变,直到AI神经网络预测到它们能将其折叠成稳定的结构为止,最终共产生了2000种全新的蛋白质序列。
可以说,阿尔法折叠近乎完美地预测了一个没有任何同源序列的、全新设计的蛋白质的三维结构,极大地震撼了蛋白质设计科学家。这表明,深度神经网路不仅仅能够从同源蛋白之间的进化信息获取三维结构的特征,而且可以直接理解蛋白质序列和结构之间的复杂关系。
未来,该系统或可促进人们对细胞基本结构的理解,并推动更快、更先进的药物制造进程。