MolBERT(Fabian 等, 2020)关注一个容易被忽略的问题:把 BERT 用到 SMILES 上,预训练目标怎么设计才更符合化学?它不是简单“又一个分子 BERT”,而是在讨论化学先验如何进入语言模型。
核心思想
- Masked token:学习 SMILES 局部语法和上下文。
- 化学辅助任务:加入与分子性质或表示一致性有关的任务,让表征更贴近化学。
- 下游迁移:用于虚拟筛选、性质预测等任务。
项目启示
- 预训练目标决定模型学到什么;只扩大模型不一定解决化学问题。
- 如果下游是活性/ADMET,预训练最好与结构、性质、实验任务有更强关联。
- 评估时要与 ECFP、Chemprop、MolFormer 等强基线比较。
关键要点
- MolBERT 的重点是任务设计,而非名字里的 BERT;
- 化学辅助任务能影响表征质量;
- 预训练目标必须服务下游药研问题。
延伸资源
- 论文:Fabian et al., arXiv 2020;配套:145《ChemBERTa》。