MolFormer(Ross 等, Nature Machine Intelligence 2022)提出大规模化学语言表征,使用高效注意力机制在约十亿级分子 SMILES 上预训练,目标是让模型从海量无标签化学空间中学习通用表示。
为什么重要
- 规模化:把分子语言模型从小数据实验推进到大规模预训练。
- 高效注意力:降低长序列和大数据训练成本。
- 迁移能力:在多类性质预测任务上展示竞争力。
如何审慎使用
- 大规模预训练不自动等于项目外推能力;仍要看 scaffold/time split。
- SMILES 模型对立体、构象和三维相互作用表达有限。
- 适合做候选表征、预筛和低成本基线,但结构任务要结合 3D 模型。
关键要点
- MolFormer 代表分子语言模型的规模化路线;
- 它补强无标签预训练,但不能替代 3D/实验验证;
- 看结果要区分随机划分成绩和真实外推能力。
延伸资源
- 论文:Ross et al., Nat. Mach. Intell. 2022;配套:145《ChemBERTa》、142《Uni-Mol》。