智东西(公众号:zhidxcom)
作者 | 香草
编辑 | 李水青

智东西9月20日报道,当地时间9月19日,国际顶刊《科学》(Science)刊发了来自谷歌DeepMind团队的论文,论文提出一种新的AI系统AlphaMissense——通过微调蛋白质预测模型AlphaFold,可以预测改变​​蛋白质单个氨基酸的错义突变的致病性。换句话说,这一AI工具可用于判别人类的基因突变是否会导致疾病,且可预测的范围比人类专家提升近千倍。

具体来说,AlphaMissense成功预测了19233个标准人类蛋白质的2.16亿种可能的单一氨基酸变化的致病性,得到了7100万个错义突变的预测,并将这7100万个可能性中的89%分类为可能致病或可能良性。相比之下,人类专家只能完成0.1%的识别。这意味着AI有望助力解决人类遗传学中的重大挑战。

错义突变是基因突变的一种,是DNA序列一种非同义替换,我们可以将其类比为英文单词中一个字母的转换。英文字母的“突变”可能导致单词含义的变化,而在DNA序列中,这样的突变可能会改变翻译的氨基酸,从而影响蛋白质的功能。

DeepMind再放大招!新模型可预测基因突变是否致病,比人类专家提升近千倍

▲对错义突变的形象表示(图源:DeepMind官网)

AlphaMissense根据AlphaFold微调而来,而后者成功预测了来自100万个物种的约2亿种蛋白质结构,几乎涵盖了地球上所有已知的蛋白质。DeepMind于2022年7月开源发布了AlphaFold 2数据库,这使得研究人员确定蛋白质3D结构的时间可以按秒计算。

一直以来,AI for Science是科技巨头在AI领域的一大主战场,蛋白质结构预测又是其中重要领域之一。Meta曾于2022年11月推出150亿参数网络EMSFold,在预测结构方面比AlphaFold快60倍;清华大学智能产业研究院(AIR)研发的系统化蛋白质结构预测解决方案AIRFold,在蛋白质结构预测竞赛CAMEO上连续四周夺冠……AI在蛋白质预测领域的竞争可谓激烈。

目前,DeepMind宣布已将AlphaMissense的全部预测结果免费提供给科研界,并开源发布了模型代码。

DeepMind再放大招!新模型可预测基因突变是否致病,比人类专家提升近千倍

论文地址:

https://www.science.org/doi/10.1126/science.adg7492

一、成功预测89%的错义突变,比人类专家提升近千倍

在遗传学中,错义突变指的是由单个核苷酸点突变引起蛋白质一个氨基酸异化,是DNA序列一种非同义替换。错义突变可以使生成的蛋白质失去功能,从而导致疾病。

如果把DNA想象成一种语言,那么一个字母的转换就可以改变一个单词,并完全改变一个句子的意思。在这种情况下,置换会改变翻译的氨基酸,从而影响蛋白质的功能。

平均每个人身上都携带着9000多个错义突变。其中大多数是良性的,几乎没有影响,但也有一些是致病性的,会严重破坏蛋白质的功能。错义突变可用于罕见遗传病的诊断,少数甚至单个错义突变都可能直接导致疾病。它们对于研究复杂疾病也很重要,因为这种疾病可能是由多种不同类型的基因突变共同引起的。

因此,对错义突变进行分类是了解哪些蛋白质变化可能导致疾病的重要一步。在人类已经出现的400多万个错义突变中,目前只有2%被专家注释为致病或良性突变,约占所有7100万个可能的错义突变的0.1%。而其余的突变,由于缺乏有关其影响的实验或临床数据,则被认为是“意义不明的突变”。

DeepMind再放大招!新模型可预测基因突变是否致病,比人类专家提升近千倍

▲AlphaMissense和人类专家的预测对比(图源:DeepMind官网)

而据论文介绍,AlphaMissense可以对7100万个可能性中的89%进行分类,其阈值在已知疾病突变数据库中的精确度达到了90%。在分类的89%中,有57%被预测为良性,剩下32%则可能是致病性的。这将极大提高遗传病的诊断预测率,并帮助发现新的致病基因。

二、基于AlphaFold三个元素,分为两个阶段训练

那么,AlphaMissense模型是如何被训练出来的呢?

据DeepMind团队介绍,为了训练AlphaMissense,团队对AlphaFold进行了微调,以区分在人类和近缘灵长类种群中出现的突变。

AlphaFold是DeepMind开发的一款蛋白质结构预测程序,可根据蛋白质的氨基酸序列预测其3D结构。AlphaFold主要有两个版本,分别于2018年和2020年推出。2021年,DeepMind在国际顶刊《自然》(Nature)上发表论文阐述了AlphaFold 2的细节,同时宣布正式开源AlphaFold 2模型代码。2022年7月,DeepMind宣布利用AlphaFold预测出超过100万个物种的2.14亿个蛋白质结构,并将数据库开源发布。

据论文介绍,AlphaMissense结合了AlphaFold现有策略的三个元素,分别是:

1、基于人口频率数据对弱标签进行训练,不使用人工注释,从而避免循环;

2、结合无监督的蛋白质语言建模任务,学习以序列上下文为条件的氨基酸分布;

3、通过使用AlphaFold衍生系统来整合序列上下文。

在训练过程上,据论文介绍,AlphaMissense的训练分为结构预训练和突变微调两个阶段。

DeepMind再放大招!新模型可预测基因突变是否致病,比人类专家提升近千倍

▲AlphaMissense概述(图源:论文插图)

在第一阶段,和AlphaFold的训练类似,通过预测MSA(多序列比对)中随机位置掩蔽的氨基酸的身份,来执行单链结构预测以及蛋白质语言建模。训练通过对AlphaFold进行一些小的架构修改,增加了蛋白质语言建模的损失权重,同时仍然实现了与AlphaFold相当的结构预测性能。

在第二阶段(上图A),模型针对人类蛋白质进行微调,并为MSA第二行中呈现的突变序列定义了额外的突变致病性分类目标。对于训练集,团队将良性标签分配给人类和灵长类动物群体中经常观察到的突变,并将致病标签分配给不存在的突变。此外,一旦模型在验证集上开始过度拟合,就立即停止训练模型。

DeepMind再放大招!新模型可预测基因突变是否致病,比人类专家提升近千倍

▲AlphaMissense如何对人类错义突变进行分类(图源:DeepMind官网)

AlphaMissense不能预测突变后蛋白质结构的变化或对蛋白质稳定性的其他影响,而是利用相关蛋白质序列和突变结构背景的数据库来产生0到1之间的分数,大致评定突变致病的可能性。连续评分允许用户选择符合其准确性要求的阈值,将突变分类为致病性或良性。

三、站在AlphaFold“巨人”肩膀上,开源发布4种资源

2022年7月,DeepMind宣布通过AlphaFold成功预测了来自100万个物种的约2亿种蛋白质结构,几乎涵盖了地球上所有已知的蛋白质。人类迈入了数字生物学的全新时代。现如今,AlphaMissense在AlphaFold的基础上更进一步,对蛋白质结构中的错义突变进行了大范围的预测。

蛋白质对人体的重要性不言而喻,是人体细胞、组织、器官的重要构成部分。而错义突变作为引起遗传性疾病的一大因素,对错义突变的预测,将使得生命科学的发展达到新的高度。

据DeepMind称,AlphaMissense在广泛的遗传和实验基准中实现了最先进的预测,而不需要对此类数据进行明确的训练。在对人类突变与疾病关系的公共数据库ClinVar上的突变进行分类时,AlphaMissense的表现优于其他计算方法。

DeepMind再放大招!新模型可预测基因突变是否致病,比人类专家提升近千倍

▲AlphaMissense在预测错义突变效应方面与其他方法的对比(图源:DeepMind官网)

随后,该团队进一步评估了AlphaMissense在两组重要蛋白质上的表现,分别来自美国医学遗传学会(ACMG)和多重分析突变效应(MAVEs),平均基因水平auROC(受体曲线下面积)均达到0.91以上。

DeepMind再放大招!新模型可预测基因突变是否致病,比人类专家提升近千倍

▲AlphaMissense在临床策划的分类基准上的性能(图源:论文插图)

围绕AlphaMissense,DeepMind共发布了四种资源。首先是包含7100万错义突变预测的数据集,其中32%被分类为可能致病,57%被分类为可能良性。第二是基因水平的AlphaMissense致病性预测,即一个基因中所有可能的错义突变的平均致病性。第三是一个扩展数据集,包含19223种标准人类蛋白质中的所有2.16亿个可能的单氨基酸置换。最后,该团队提供了对6万种替代转录本异构体中所有可能的错义突变和氨基酸置换的预测,以供未来研究和评估异构体的特异性影响。

虽然AlphaMissense取得了显著的成绩,不过也有一定的局限性。爱丁堡大学的计算蛋白质生物学教授Joseph A. Marsh和剑桥大学研究院兼维康桑格研究所细胞遗传学负责人Sarah A. Teichmann发文指出,该预测器的结构成分没有考虑大多数蛋白质会组装成具有多样四聚体结构的复合物或凝聚体,仅考虑单体结构可能不够完善。

不过毋庸置疑的是,AlphaMissense预测可能加速人类对突变于蛋白质功能分子影响的理解,有助于发现致病基因,并提高罕见遗传病的诊断率。

除了DeepMind,蛋白质结构预测领域也吸引了许多其他科技巨头和科研机构,Meta的EMSFold、清华智能产业研究院的AIRFold、华盛顿大学的RoseTTAFold、深势科技的Uni-Fold、百度飞桨螺旋桨PaddleHelix的HelixFold……这些模型或工具都为蛋白质结构预测和设计提供了强大的驱动力,推动着生命科学的进一步发展。

结语:DeepMind新模型有望助力生命科学实现新突破

毫无疑问,AlphaMissense对于生命科学产业具有重大的意义。作为错义突变预测大模型,AlphaMissense对突变的预测范围比人类专家提高了近千倍。

应用到临床中,AlphaMissense可以提升遗传疾病诊断的效率和精度,推动个性化医疗的发展,对于新药研发也具有重要意义。尽管仍有许多挑战需要克服,但这些挑战也将促使科研人员继续努力,实现这一技术的广泛应用和持续创新,为人类健康事业做出更大的贡献。

如今,已经有越来越多的科学家将AI应用到解析疾病、破解生物谜题、探索生命起源中,未来,AlphaMissense模型及数据库的不断更新或将加速生命科学和药物研发的进展,对基础科学产生重大影响。