AIDD·Atlas AI 制药学习地图
147

MolFormer 论文精读:十亿级 SMILES 预训练带来了什么

MolFormer 在大规模 SMILES 上训练高效 Transformer,展示分子语言模型的规模化路线。它有代表性,但仍受 SMILES 表示和评测划分限制。

MolFormer(Ross 等, Nature Machine Intelligence 2022)提出大规模化学语言表征,使用高效注意力机制在约十亿级分子 SMILES 上预训练,目标是让模型从海量无标签化学空间中学习通用表示。

为什么重要

  • 规模化:把分子语言模型从小数据实验推进到大规模预训练。
  • 高效注意力:降低长序列和大数据训练成本。
  • 迁移能力:在多类性质预测任务上展示竞争力。

如何审慎使用

  • 大规模预训练不自动等于项目外推能力;仍要看 scaffold/time split。
  • SMILES 模型对立体、构象和三维相互作用表达有限。
  • 适合做候选表征、预筛和低成本基线,但结构任务要结合 3D 模型。

关键要点

  • MolFormer 代表分子语言模型的规模化路线;
  • 它补强无标签预训练,但不能替代 3D/实验验证;
  • 看结果要区分随机划分成绩和真实外推能力。

延伸资源

  • 论文:Ross et al., Nat. Mach. Intell. 2022;配套:145《ChemBERTa》、142《Uni-Mol》。