首页/详情

仅 $165 训练 25 种物种的 CodonRoBERTa 大规模 mRNA 语言模型

Hacker News2026/04/02 04:38机翻/自动摘要/自动分类
0 阅读

内容评分

技术含量
8/10
营销水分
5/10

摘要

本文介绍了 CodonRoBERTa‑large‑v2——一种在密码子层面进行语言建模的 Transformer,凭借 4.10 的 perplexity 与 0.40 的 Spearman CAI 相关性领先于同类模型。团队在仅 165 美元、55 GPU 小时的成本下,完成了覆盖 25 种物种的多模型训练,并提供了完整的开源代码和基于物种特性的自动化系统,为蛋白质结构预测、序列设计和密码子优化提供了高效实用的工具。

正文

我们构建了一条端到端的蛋白质 AI 流程,涵盖结构预测、序列设计以及密码子优化。通过对多种用于密码子级语言建模的 架构进行系统对比,CodonRoBERTa‑large‑v2 脱颖而出,取得了 4.10 的困惑度(perplexity)和 0.40 的 Spearman CAI 相关系数,显著优于 ModernBERT。基于该模型,我们进一步扩展至 25 种物种,仅耗费 55 GPU 小时(约 165 美元),训练出 4 套可直接投入生产的模型,并实现了一个依据物种特性进行自动选择的系统——这是目前其他开源项目所不具备的功能。完整的实验结果、架构决策以及可运行的代码均已开源,供社区复现与二次开发。

标签