AIDD·Atlas AI 制药学习地图
146

MolBERT 论文精读:预训练任务比模型名字更重要

MolBERT 研究 SMILES 语言模型中预训练目标的作用。它提醒我们:化学相关辅助任务可能比单纯换 Transformer 架构更关键。

MolBERT(Fabian 等, 2020)关注一个容易被忽略的问题:把 BERT 用到 SMILES 上,预训练目标怎么设计才更符合化学?它不是简单“又一个分子 BERT”,而是在讨论化学先验如何进入语言模型。

核心思想

  • Masked token:学习 SMILES 局部语法和上下文。
  • 化学辅助任务:加入与分子性质或表示一致性有关的任务,让表征更贴近化学。
  • 下游迁移:用于虚拟筛选、性质预测等任务。

项目启示

  • 预训练目标决定模型学到什么;只扩大模型不一定解决化学问题。
  • 如果下游是活性/ADMET,预训练最好与结构、性质、实验任务有更强关联。
  • 评估时要与 ECFP、Chemprop、MolFormer 等强基线比较。

关键要点

  • MolBERT 的重点是任务设计,而非名字里的 BERT;
  • 化学辅助任务能影响表征质量;
  • 预训练目标必须服务下游药研问题。

延伸资源

  • 论文:Fabian et al., arXiv 2020;配套:145《ChemBERTa》。