NVIDIA推出CodonFM:用于RNA设计和分析的尖端模型
realtime news Oct 29, 2025 15:02
NVIDIA介绍了CodonFM,这是一种先进的RNA基础模型,旨在通过分析RNA序列、预测突变效应和优化mRNA设计来增强数字生物学研究。
NVIDIA发布了CodonFM,这是一个突破性的RNA基础模型,旨在彻底改变数字生物学研究。作为Clara开放模型家族的一部分,CodonFM有望改变RNA序列在各种生物任务中的分析和应用方式,据NVIDIA所述。
CodonFM:RNA分析的新范式
CodonFM通过以类似于阅读句子中的词语来解释RNA序列的自然句法,从而脱颖而出。这种创新方法使该模型能够理解遗传代码的复杂语法,提供跨不同生物体的密码子使用偏见的见解。与传统蛋白质语言模型不同,CodonFM考虑了同义变体,从而增强其预测mRNA稳定性和翻译效率等特性的能力。
CodonFM基于BERT风格的双向编码器架构,处理最大到6,138个核糖核苷酸的大上下文窗口。它在一个包含来自22,000个物种的1.31亿蛋白质编码序列的大型数据集上训练,这使其能够捕捉经过进化时间段精炼的长距离序列模式。
应用和影响
CodonFM设计用于广泛的应用,从预测遗传突变的影响到优化用于治疗用途的mRNA序列。其预测能力扩展到类似诠释同义突变这类具有挑战性的场景,这些场景常常逃避其他模型的捕捉。CodonFM检测密码子使用位置细微变化的能力使其在预测致病性与良性变体方面成为领导者。
在mRNA治疗设计中,CodonFM提供了一个强大的序列优化框架,这对基因替代和蛋白质恢复疗法至关重要。其在蛋白质丰度和翻译效率基准测试中的预测精度突显了其增强治疗效果的潜力。
技术进步
CodonFM的架构支持多种微调策略,允许研究人员为特定任务定制模型。选项包括用于降低训练成本的低秩适应和用于全面参数调整的全模型微调。通过NVIDIA的GPU原生加速技术,模型的可扩展性得到进一步增强,确保数据处理和模型训练的效率。
此计划与NVIDIA更广泛的虚拟细胞项目一致,旨在开发不仅理解而且能够塑造生物过程的AI系统。通过提供开放访问CodonFM权限,NVIDIA鼓励与Arc Institute和Therna Biosciences等机构合作,促进生物智能的进步。
展望未来
CodonFM代表了可编程生物学的重大进步,提供了一种新的语言来解释和重新设计RNA序列。随着研究人员探索其能力,CodonFM预计将在数字生物学中推动创新,增强我们对遗传信息的理解和操作。
Image source: Shutterstock