AIDD·Atlas AI 制药学习地图

147

MolFormer 论文精读：十亿级 SMILES 预训练带来了什么

MolFormer 在大规模 SMILES 上训练高效 Transformer，展示分子语言模型的规模化路线。它有代表性，但仍受 SMILES 表示和评测划分限制。

MolFormer（Ross 等, Nature Machine Intelligence 2022）提出大规模化学语言表征，使用高效注意力机制在约十亿级分子 SMILES 上预训练，目标是让模型从海量无标签化学空间中学习通用表示。

为什么重要

规模化：把分子语言模型从小数据实验推进到大规模预训练。
高效注意力：降低长序列和大数据训练成本。
迁移能力：在多类性质预测任务上展示竞争力。

如何审慎使用

大规模预训练不自动等于项目外推能力；仍要看 scaffold/time split。
SMILES 模型对立体、构象和三维相互作用表达有限。
适合做候选表征、预筛和低成本基线，但结构任务要结合 3D 模型。

关键要点

MolFormer 代表分子语言模型的规模化路线；
它补强无标签预训练，但不能替代 3D/实验验证；
看结果要区分随机划分成绩和真实外推能力。

延伸资源

论文：Ross et al., Nat. Mach. Intell. 2022；配套：145《ChemBERTa》、142《Uni-Mol》。