AIDD·Atlas AI 制药学习地图

146

MolBERT 论文精读：预训练任务比模型名字更重要

MolBERT 研究 SMILES 语言模型中预训练目标的作用。它提醒我们：化学相关辅助任务可能比单纯换 Transformer 架构更关键。

MolBERT（Fabian 等, 2020）关注一个容易被忽略的问题：把 BERT 用到 SMILES 上，预训练目标怎么设计才更符合化学？它不是简单“又一个分子 BERT”，而是在讨论化学先验如何进入语言模型。

核心思想

Masked token：学习 SMILES 局部语法和上下文。
化学辅助任务：加入与分子性质或表示一致性有关的任务，让表征更贴近化学。
下游迁移：用于虚拟筛选、性质预测等任务。

项目启示

预训练目标决定模型学到什么；只扩大模型不一定解决化学问题。
如果下游是活性/ADMET，预训练最好与结构、性质、实验任务有更强关联。
评估时要与 ECFP、Chemprop、MolFormer 等强基线比较。

关键要点

MolBERT 的重点是任务设计，而非名字里的 BERT；
化学辅助任务能影响表征质量；
预训练目标必须服务下游药研问题。

延伸资源

论文：Fabian et al., arXiv 2020；配套：145《ChemBERTa》。