智东西(公众号:zhidxcom)
编译 | 周炎
编辑 | 云鹏

智东西3月24日消息,近日,《华尔街日报》在一则报道中,对Meta的ESMFold与DeepMind的AlphaFold两个蛋白质结构预测大模型进行了梳理,详细地介绍了二者的原理以及开发过程。

报道称,此前,DeepMind解决了一个困扰科学家50年的难题,它使用AI代替此前速度较慢、成本较高的实验室技术,来确定蛋白质的三维结构。这些结构对药物和疫苗开发、气候变化研究等都至关重要。

据悉,DeepMind的AlphaFold2首发于2021年7月,已被用于预测几乎所有已知的蛋白质结构。就在AlphaFold2推出的3个月后,Meta研究人员在Nature上发表论文。文章显示,Meta研究人开发了一种蛋白质结构预测模型ESMFold,预测了来自细菌、病毒和其他尚未表征的微生物的约6亿种蛋白质的结构。同时,在较短的氨基酸序列中,相较于AlphaFold2,其预测蛋白质结构的速度快了将近60倍。

一、ESMFold加入战局,14天内预测超6亿种蛋白质结构

从氨基酸序列中预测蛋白质结构是自然科学的重大挑战,从蛋白质的分子结构结构来看,蛋白质的分子结构可划分为四级,所谓的蛋白质的结构预测就是从蛋白质的一级结构预测其折叠和二级、三级、四级结构。根据不同的氨基酸和序列,蛋白质能折叠的构型数量是一个天文数字,使用AI的方法可以加速对蛋白质的解析。

目前在基于进化的算法中,AlphaFold2通过在多序列输入、进化同源物对齐序列和可选结构模板上训练端到端神经网络,在预测蛋白质结构方面取得了一定成果。与AlphaFold2工作原理不同,ESMFold使用ESM-2学习的信息和表示来执行端到端的3D结构预测。

简单来讲,作为大型语言模型,ESMFold的原理与ChatGPT基本相似,只不过,训练它的内容不是自然语言,而是生物基因语言。它基于语言学习模型内部表征,而不是像AlphaFold2一样基于结构和序列匹配算法,这样就消除对显式同源序列作为输入的要求,即ESMFold蛋白质模型只需一个序列作为输入。同时ESMFold是一个完全端到端的序列结构预测器,可以完全在GPU上运行,无需访问任何数据库。

研究人员曾经做过试验,在单个NVDIA V100 GPU上,使用较少参数的ESMFold在14.2秒被对具有384个残基进行预测,可比单个AlphaFold模型能够实现的预测速度快6倍,而在较短的序列上,研究人员甚至看到约60倍的提速。

据悉,ESMFold蛋白质模型背后的团队由Meta AI资深研究科学家Alexander Rives主导,该团队专注于大规模蛋白质序列和结构数据的无监督表示学习模型研究。

蛋白质结构预测速度提升60倍!Meta做出“生物界的ChatGPT”▲2017年,欧洲生物信息研究所发布的显示了AlphaFold模拟人类的蛋白质结构,来源:法国新闻社

Meta AI研究科学家Alexander Rives说:“这些蛋白质极其多样,人类对它们知之甚少,为了数量规模庞大的蛋白质,研究人员需要在预测速度上取得突破。”他还称,使用大型语言模型,ESMFold能够在两周内预测超过6亿种蛋白质。

作为测试案例,Meta AI将ESMFold用于来自环境来源(包括土壤、海水、人类肠道、皮肤和其他微生物栖息地)的批量测序“宏基因组”DNA数据库。绝大多数编码潜在蛋白质的DNA条目来自从未培养过且科学未知的生物体。

自从DeepMind取得突破以来,人们对AI在生物学中的应用产生了巨大的兴趣。AlphaFold是蛋白质结构预测方面取得的一大进步,这也进一步激发了深度学习的浪潮。

二、曾取得CASP最好成绩,AlphaFold将被用于治疗疾病

目前,DeepMind开源了AlphaFold2的代码,让社区可以免费使用,目前约2.4亿的几乎所有已知的蛋白质都可以查到。此前,研究人员花费几个月或几年时间才能预测蛋白质的结构。投资生命科学技术的成长型股票公司Biospring Partners联合创始人詹妮弗卢姆(Jennifer Lum)称,AlphaFold缩短了这个过程,使这些团队能够将他们的时间转移到下游的研究和产品开发上,进入其他增值领域。

2018年,AlphaFold1在两年一度的CASP实验中取得了最好的成绩。团队又花了大量时间跟踪CASP,尝试不同的方法来改进AlphaFold,测试它们是否可以匹配实验蛋白质结构的准确性。

Jumper称,这个团队一直工作到2019年,他才真正相信这个团队能够完成它的使命。传统而言,生物学家使用基于X射线和其他技术的实验室技术来理解单一蛋白质结构,但据Jumper称,这一过程不仅要花费数年时间,还活花费10万美元。

蛋白质结构预测速度提升60倍!Meta做出“生物界的ChatGPT”▲John Jumper领导了机器学习应用蛋白质生物学的新方法开发,来源:DeepMind官网

虽然计算方法在理解蛋白质结构方面取得进展,但是目前这项技术还不够完善。无法取代实验室方法。最初的AlphaFold模型试验AI预测氨基酸对之间的距离,第二步利用这些距离分布来得到蛋白质的预测结构。其中第二步涉及到AlphaFold,它利用这些信息,提出了一个关注蛋白质是什么样子的共识模型,而无需AI。

Jumper称,研究小组正在把注意力转向蛋白质创新的新挑战。研究小组正在寻求了解突变与蛋白质功能变化之间的联系,这可以帮助治疗疾病。

结语:AI赋能药物研发具有巨大潜力

作为蛋白质结构预测大模型,ESMFold在速度上快于AlphaFold2约60倍。如果在实际计算中,这一速度优势表现得更加明显。同时推断速度优势使得基于计算有效映射大型宏基因组序列数据库的结构空间成为可能。

ESMFold还可以被用于进行快速准确的结构预测,进一步帮助发现新的蛋白质结构和功能。未来,ESMFold或将超越预测蛋白质的静态结构,进一步研究蛋白质的动态结构。当这两个领域的研究都完成后,通过AI赋能新药设计就具备了基础,而从长远看,这具有巨大的潜力。

来源:《华尔街日报》