加速药研新方法!AI模型高速生产蛋白质,几秒钟生成数百万个氨基酸序列

智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影

智东西1月13日报道,美国初创企业Evozyne使用NVIDIA(英伟达)提供的预训练AI模型,创造了两种在医疗和清洁能源领域具有重大潜力的蛋白质。

相应联合论文于1月12日发布,展示了一种加速药物研发的新方法及产出的蛋白质氨基酸序列,其中一种蛋白质用于治疗一种先天性疾病,另一种用于消耗二氧化碳以减少全球变暖。

Evozyne联合创始人、论文共同作者Andrew Ferguson的研究领域涵盖化学和机器学习领域,他谈道:“这个AI模型第一轮产出的合成蛋白质就像自然生成的蛋白质一样,表示该模型已经学会了自然界的设计规则。”

一、向大自然学习,构建氨基酸序列

Evozyne使用了NVIDIA的Transformer模型ProtT5,生成有用的蛋白质,进而助力药物研发和能源领域实现可持续性。

ProtT5是用于创建医疗AI模型的软件框架和服务NVIDIA BioNeMo的一部分。该模型是Evovyne ProT-VAE流程的核心。ProT-VAE是一个工作流,能够将BioNeMo与作为过滤器的变分自编码器(VAE)相结合。

加速药研新方法!AI模型高速生产蛋白质,几秒钟生成数百万个氨基酸序列

据Ferguson分享,几年前还没有人注意到可以用大型语言模型与变分自编码器相结合的方式来设计蛋白质。

NVIDIA的Transformer模型会读取数百万种蛋白质中的氨基酸序列。该模型运用神经网络用来理解文本的技术,学会了大自然如何构建蛋白质氨基酸序列。然后,该模型预测了如何组装出能够满足Evozyne需求的新蛋白质。

“BioNeMo非常强大,让我们能够训练模型,然后以非常低的成本使用该模型来运行工作任务,在几秒钟内就能生成数百万个序列。”Ferguson说。

二、缩短训练时间,扩大模型规模

机器学习有助于研究海量可能的氨基酸组合,然后有效地识别最有用的序列。传统的蛋白质工程设计方法,即定向进化,采用的是一种缓慢、无计划的方法,通常一次只改变几个氨基酸的序列。

相比之下,Evozyne的方法只通过一轮,就能改变一个蛋白质中半数乃至以上的氨基酸。这相当于进行了数百次的突变。此方法可用于探索以前从未见过的、功能有用新功能的蛋白质。

Evozyne计划使用新的工艺来构建各种能够对抗疾病和气候变化的蛋白质。据悉,他们通过将工作扩展到多个GPU来加快训练速度,这将训练大型AI模型的时间从几个月缩短到一个星期。因此Evozyne能够训练出原本不可能训练出的模型,比如一些有数十亿可训练参数的模型。

结语:AI加速蛋白质工程前景广阔

自DeepMind公布AlphaFold破解蛋白质折叠难题以来,AI加速蛋白质设计的进展日新月异。越来越多的研究人员将AI应用到实验室中,通过探索蛋白质结构,更快开发出有效的治疗方法,为饱受疑难杂症摧残的患者带来新的希望。

此前,多家制药公司、生物技术初创公司及前沿生物研究人员已经使用NVIDIA BioNeMo,在AI大模型的辅助下大大加快蛋白质结构分析与设计等工作,将药物研发推向快车道。