英伟达推出大模型云服务!为生物学研究打开AI加速之门

智东西(公众号:zhidxcom)
作者 | ZeR0
编辑 | 漠影

智东西9月21日报道,今日凌晨,NVIDIA(英伟达)在GTC大会上宣布推出NVIDIA BioNeMo LLM服务和框架,以便制药公司、生物技术初创企业和前沿生物研究人员加速开发用于生成、预测和理解生物分子数据的AI应用。

NVIDIA BioNeMo框架用于训练和部署超算规模的大型生物分子语言模型,帮助科学家更好地了解疾病,并为患者找到治疗方法。该大型语言模型(LLM)框架将支持化学、蛋白质、DNA和RNA数据格式。除语言模型框架之外,NVIDIA BioNeMo还提供一项云API服务,该服务将支持越来越多的预训练AI模型。

NVIDIA今日还宣布与麻省理工学院哈佛大学旗下的博德研究所(The Broad Institute)合作,为Terra云平台提供快速分析海量医疗数据所需的AI和加速工具。这将惠及该平台的25000多名用户,这些用户包括来自学术界、初创企业和大型制药公司的生物医学研究人员。

一、将大型语言模型扩展到生物学领域,提速分子、蛋白质结构研究

以前,使用自然语言处理模型来处理生物数据的科学家一般会训练相对较小、需要自定义预处理的神经网络。而通过BioNeMo,科学家可将其扩展为具有数十亿参数的LLM,捕捉分子结构、蛋白质溶解度等信息。

NVIDIA BioNeMo是NVIDIA Clara Discovery药物研发框架、应用和AI模型集的一部分,可实现大规模自监督语言模型的GPU加速训练。这一针对特定领域的框架支持以SMILES化学结构标记表征的分子数据、以及以FASTA氨基酸和核酸序列字符串表征的分子数据,使基于生物分子数据的大规模神经网络训练更为轻松。

英伟达推出大模型云服务!为生物学研究打开AI加速之门

借助该框架,科学家能够使用更大的数据集来训练大规模语言模型,打造出性能更强大的神经网络。

NVIDIA BioNeMo LLM服务将为开发者提供4个预训练语言模型:

1ESM-1这一最初由Meta AI Labs发布的蛋白质LLM能够处理氨基酸序列,最终生成用于预测各种蛋白质特性和功能的表征。它还提高了科学家理解蛋白质结构的能力。

2OpenFold这是由学术界和产业界共同成立的Openfold联盟创建的sota蛋白质建模工具,它将可以通过BioNeMo服务提供其开源AI工作流程。

3MegaMolBART这一基于14亿分子训练而成的生成式化学模型可用于反应预测、分子优化和新分子的生成。

4ProtT5该模型是在慕尼黑工业大学RostLab的带领下合作开发的,NVIDIA也是该项目的参与者之一。PortT5将ESM-1b等蛋白质LLM的功能扩展到序列生成。

这些模型针对推理进行了优化,并将通过NVIDIA DGX Foundry上运行的云端API提供抢先体验。

未来,使用BioNeMo LLM服务的研究人员将能通过fine-tuning以及p-tuning等新技术,在几小时内完成LLM模型的自定义,提高应用的准确性。相比原来动辄数百万个样本的数据集,p-tuning训练方法只需包含几百个样本的数据集。

OpenFold联盟创始成员、哥伦比亚大学系统生物学系助理教授Mohammed AlQuraishi如此评价NVIDIA BioNeMo框架:“该框架使整个医疗和生命科学行业的研究人员都能利用快速增长的生物和化学数据集。这样就能更轻松地发现和设计出精准针对疾病分子特征的治疗方法。”

二、与博德研究所合作,为Terra云平台提供AI和加速工具

NVIDIA宣布与麻省理工学院和哈佛大学旗下的博德研究所(The Broad Institute)合作,为Terra云平台提供快速分析海量医疗数据所需的AI和加速工具。

博德研究所希望通过提供一个开放的云平台,将研究人员相互联系起来,并将研究人员与其实现科学突破所需的数据集和工具连接起来,从而实现新一代生物医学合作研究。

此次合作旨在将NVIDIA在AI领域的专长和医疗计算平台与博德研究所的全球知名研究人员、科学家和开放平台建立连接,重点关注3大关键领域:

1、在Terra平台上提供NVIDIA Clara  ParabricksParabricks是一款用于测序数据二级分析的GPU加速软件套件,现可用于6个新的Terra工作流程。NVIDIA Parabricks GPU加速的工作流程为研究人员提供更快的周转时间和更低的成本,以进行广泛的基因组数据分析。

用户现可使用Clara Parabricks,在1个多小时内完成全基因组的分析,而在基于CPU的环境中这项工作需要24个小时才能完成,并且,使用Parabricks计算成本降低一半以上。

2、构建大型语言模型(LLM):为深入探究人类生物学,研究人员将使用今日发布的用于生物学LLM模型的AI应用框架NVIDIA BioNeMo,来开发DNA和RNA的基础模型。双方团队还将基于此次合作,共同创建新的模型,将其添加至BioNeMo集合中,并在Terra平台上提供。

3、为基因组分析工具包(GATK)带来更加强大的深度学习:NVIDIA正致力于为10多万名研究人员所使用的行业标准工具——博德研究所的GATK工具包打造新的深度学习模型,帮助研究人员识别与疾病相关的基因变异。这将助力新药研发人员研究新的疗法。

博德研究所的研究人员还能够访问用于医学影像AI的开源深度学习框架MONAI以及用于加快数据准备工作的GPU加速数据科学工具包NVIDIA RAPIDS。后者可用于基因组单细胞分析。

“生命科学领域正处于一场数据革命之中,研究人员迫切需要一种将机器学习引入生物医学的新方法。”博德研究所首席数据官Anthony Philippakis说,“我们希望通过此次合作,进一步践行「数据共享与合作流程」的使命,进而扩展基因组学研究。”

结语:医疗生态系统需要更先进的计算工具

“整个医疗生态系统都需要更先进的计算工具,以便我们在理解疾病、发展诊断学和提供治疗方案的方面取得突破。”NVIDIA医疗业务副总裁Kimberly Powell谈道。

可以看到,无论是推出NVIDIA BioNeMo LLM服务,还是扩大与博德研究所的合作,NVIDIA都在通过大型语言模型与先进计算工具的结合,为生命科学研究引入更高效的方法,最终为人类消除疾病、促进健康做出贡献。