数据要素产业
AI模型在生命科学领域的研究,驶入生命信息深处
生命科学领域的研究中有很多方向,比如研究微观层面的细胞生物学与分子生物学,研究生物与环境关系的生态学等。而与生命活动规律、发育机制、生命本质的研究最接近的是有关生物大分子,比如蛋白质、核酸结构的研究。
对蛋白质进行系统深入的研究,能让我们从更深层次诠释生命体的构成和运作变化规律,进而全面揭示生命运行、发展的机制,激发生物科学、药物研发、合成生物学方面的发展。因此蛋白质研究、预测蛋白质结构等是学术与产业界深度参与的领域。在AI时代,得益于算力和算法模型的极大提升,我们也见证了蛋白质结构预测的历史时刻。
每两年举办一次的CASP比赛被誉为“蛋白质结构预测领域的奥林匹克竞赛”,在基于CASP14(2020年第14届国际蛋白质结构预测竞赛)的蛋白质测试集评估中,天壤TRFold获得了国内所有公开蛋白质结构预测模型中最好成绩,仅次于DeepMind公司AlphaFold2 全球第一的成绩。CASP竞赛是含金量非常高的比赛,能在这样的国际大赛中赢得优异的成绩,也意味着国内计算生物学的表现突围进入了世界第一梯队。
无论是享誉世界的AlphaFold2 模型,还是国内新晋的TRFold模型,这些前沿的AI模型都在生命科学领域中赋予研究如催化剂般的效率,沿着蛋白质研究的价值探索过程,我们一起看看这场重构生命科学与医药领域的旅程。
打开科研思路与研究空间
在中学的时候我们已经简单了解过蛋白质,我们知道蛋白质是细胞中的主要功能分子,参与行使几乎所有的细胞功能:比如在食物的消化过程中可以发挥催化作用的各种酶;血液中的血红蛋白运输养料与代谢废物;参与生物体内的新陈代谢的调剂作用,如胰岛素;肌球蛋白用于细胞骨架的形成,还有免疫、细胞分化、细胞凋亡等过程都有蛋白质的身影参与。
在蛋白质参与行使细胞功能的过程中,必须折叠成特定的结构。但其排列的方式和位置的差异使得种类极其繁多,蛋白质在三维空间的折叠方向有10^300种方式,结构非常复杂。不同的折叠方式使得蛋白质具有的活性和生物性能不定,而这个复杂的特性也就注定了研究蛋白质的路径困难重重。
传统观测蛋白质结构的方法主要有三种,包括核磁共振、X 射线、冷冻电镜,但这些方法往往依赖昂贵的设备和大量的试错过程,每种结构的研究都要花数年时间。历史上有科学家耗费几十年时间才能得到一个清晰的蛋白质三维结构,蛋白质三维结构的测定成了生物学领域非常困难的研究。至今为止没有AI技术的协助,三维结构被看清的量也仅仅只有17万个,这跟蛋白质的总量相比差距巨大。
而AI应用于蛋白质结构的最新进展,即AlphaFold2模型、TRFold模型等,能在几天、甚至以分钟级预测出具有高置信度的蛋白质结构,这在以前甚至要花费数十年时间。相对于传统的测定方式来说速度不仅快而且成本低廉,非常适合高通量的蛋白质结构获取。研究表示,如果照此速度,到今年年底将能完成对 1.3 亿个蛋白结构的预测,这有可能彻底改变生命科学的研究进程。
而这也意味着这种AI主导下的大规模的蛋白质结构预测将成为一种重要工具,对于科研工作者来说,能从结构的角度解答新的科学问题,打开科研的思路。比如科研人员可以对未知功能或者新发现的蛋白质分子,通过结构分析,进行功能注释,指导设计进行功能确认的生物学实验。也可以通过分析蛋白质的结构,确认功能单位或者结构域,为遗传操作提供目标,为设计新的蛋白质或改造已有蛋白质提供可靠的依据等。天壤团队研发的TRFold这类AI模型对于生物科学领域的深研来说,围绕蛋白质结构功能问题,可以进一步打开对生物计算领域创新性研究的发现与探索空间,促进这个领域以更快的速度发展。而除了生物结构学方面的支持以外,在医学、药物学的研究过程中,AI模型也具有发挥的空间。
快速解析病毒结构,折叠药物研发时间
新药研发是人类发展中极具风险和复杂度、耗时最漫长的技术研究领域之一。据Tufts Center的统计报告,开发一款成功上市的新药平均需要投入26亿美元,耗时约10年。居高不下的成本,与药物研发的巨大失败率有关。过去十年,药物开发项目从1期临床到获得FDA批准上市的成功率平均为7.9%。
随着人工智能技术的发展,部分应用了AI的新药研发减少了35%的成本,研发周期也从5-10年缩短为1-3年。事实上,药物研发是一个系统性工程,AI技术在这个系统中能够针对药物研发过程的筛选及设计优化等核心痛点问题,减少大量的试错和返工时间,节省药物研发的成本。
TRFold 模型能低成本地预测一些与疾病相关的蛋白质结构,进而通过药物重定位、虚拟筛选等方法寻找这些疾病的潜在药物。比如在一些白化病、成骨不全症等罕见病中,由于回报率低、患者多为贫困人口等原因,这些疾病无法得到医药公司的重视。仅在中国,这类疾病的患者就达2000万以上。尽管这类被忽视疾病占了全球总疾病里的12%,但只有仅仅1.1%的新研发药物,适用于被忽视的疾病。如今,AlphaFold2、TRFold 等AI模型为这类疾病的药物开发带来了希望,通过快速准确地预测蛋白质结构,为新的药物分子设计提供合理的靶分子及结构,使几乎只集中在贫困人口中的疾病的药物研发成为可能。
在新药的临床试验中,TRFold 模型也能作为“毒性预警系统”发挥效用。在测试药物毒性的过程中,动物模型非常有价值,但我们在进入高风险的人体临床试验中,需要降低风险,否则意外的毒副作用,会让新药退出临床研究,前功尽弃。一般的解决方案是开发高度模仿的人类生物系统,但现在来说仍难以实现。TRFold这类AI模型让我们对人类蛋白有了3D模型,这也许可以帮助我们建立更好的人类生物模拟系统。
当然在一些细菌以及病毒相关的蛋白质结构研究中,TRFold模型也会拓展对蛋白质类型的功能分析以及下游应用的范围,比如一些病毒类感染的疾病研究,抗生素、靶向药的开发,研发新效率的酶等为药研与健康作出贡献。
但是,还有很多研究工作对于蛋白质结构的准确度要求极高。比如血红蛋白中铁离子的位移,是在零点几埃的尺度上进行讨论的。对于这类结构细节的精细分析,预测结构无法作为讨论的基础,因为其中一丝一毫的不确定性都可能导致完全不同的结论。AI模型的算法普适性和准确度仍有提高空间,对蛋白质与其配体的复合结构、蛋白质的动态分析等领域算法需要完善。
AI预测模型驶入生命信息深处
用AI模型预测单蛋白的结构模拟只是开始,结构的预测只是指明了研究的方向,后续的进展还得需要试验与头脑的风暴。还有一些无法被AI模型预测与发现的结构,其研究仍然是谜一般的存在,这也给科研人员、企业与研究机构留下了很大的空间。
国内外不同的蛋白质结构预测模型在广阔的生命科学与生物科技领域会各自占领擅长的领域,发挥效用。结构生物学家,中国科学院院士施一公曾表示对AI预测模型的看法,“人类蛋白质组里能够被预测的蛋白质三维结构,已经基本被 AlphaFold 预测了。总体而言,预测结果可信、也比较准确。这是人类在认识自然界的科学探索征程中一个非常了不起的历史性成就,也是人类在 21 世纪取得的最重要的科学突破之一”。
毋庸置疑的是AlphaFold2是蛋白质结构预测方向的重大突破,这类AI模型预测的高质量蛋白质结构,会促进高效筛选化合物的新技术发展,以及药物研发的全生命流程等。
或许有人会有疑惑,AlphaFold 2模型性能足够强大了,为何我们自己还要花费精力、脑力去打造算法?事实上虽然Deepmind开源了AlphaFold 2模型,但开源的是推理代码,并没有训练代码,所以在github下载的代码实际上只能运行AF2的模型算法,直接对蛋白质结构进行预测。如果想要围绕蛋白质结构功能问题,或者是能够达到实际落地应用准确度要求的AI算法,没有训练模型经验,或者没有具备能够训练出AlphaFold 2模型结果的能力是无法把该技术推进解决更深层次问题的。
与芯片一样,对于做蛋白质结构预测来说,没有核心的技术能力,对于深层次的生命科学领域的探索就会受到限制。天壤团队打造的TRFold这套算法平台完全是国产自研,从底层代码慢慢搭建起来的,并且在国际赛事中取得了仅次于AlphaFold 2模型的好成绩。
在两年半的研发时间里,TRFold经历了几十个版本的迭代,当前的训练架构是从今年初就开始设计,处理数据、训练数据并不停迭代优化,耗费10个月时间。其最新版本的预测精度接近AlphaFold2,并突破AlphaFold2需要超大算力的瓶颈。区别于AlphaFold2模型,TRFold有自己的思考与设计。TRFold采取权重共享的方式节约算力,在训练资源与算力有限的情况下,天壤团队从数据和网络设计上做出改进,仅采用少量的真实数据训练,使模型在训练过程中能够获得对真实共进化信息更好地识别能力,从而取得对氨基酸残基距离和坐标更准确的预测结果。
其算力消耗约AlphaFold2的1/32,预测大多数蛋白质链所需时间不超过16秒,相较于AlphaFold2预测约400个氨基酸的蛋白链所需70多秒的时间,具有明显的小样本数据训练生成优势。在后续构建蛋白质相互作用网络的过程中,计算量指数级别增长的情形下,对蛋白质的结构预测的研究具有深远意义,也为后续的研究比如结构生物科学、药物研究等领域打开了国产深研的大门,我们不会因为技术的限制而仰人鼻息。
天壤团队的TRFold模型也有自己的发展方向:围绕蛋白质结构功能问题并且能够达到实际落地应用准确度要求,进而推进解决更深层次的问题。比如研究蛋白质间相互作用的问题,利用目前的全蛋白质组协同进化分析,建立起蛋白质与蛋白质之间的相互作用的精准链路。通过研究蛋白质之间的相互作用,帮助科研人员构建大规模的相互作用网络图、寻找药物结合靶点的新思路以及精准疾病治疗的新方法。在新药研发、抗体模拟等疫苗研发中,提高蛋白质设计的精度和成功率,为各类疫苗比如新冠疫苗等的蛋白设计的验证助益等。
纵观科学史,每次科研领域取得重大的进步,都离不开当时技术的支持。无论是在蛋白质提纯的困难年代,还是电眼观察蛋白质的冷电镜技术时代,科学家研究的工具都依赖于当时的最高科技水平。随着AI技术的不断突破,走在前沿生命科技领域的深水区与无人区的领路者DeepMind、天壤等公司,不断用AI技术赋能,助力研究人员的科研工作,让科研人员告别依赖人类先验知识去做蛋白质结构预测的方式。
可预测的未来,站在AI巨人的肩膀上,这个领域的发展一定会有质的飞跃。而蛋白质这个能够影响生命进程的大分子,AI算法模型为我们打开了生命科学领域的新世界,这些海量的蛋白质结构会被技术释放,背后的解读与分析蕴含着生命信息的“富矿”,等待我们去探索与挖掘。