AIDD·Atlas AI 制药学习地图
145

ChemBERTa 论文精读:SMILES Transformer 的价值和局限

ChemBERTa 把 RoBERTa 式预训练用于 SMILES,展示分子语言模型潜力。但 SMILES 不是天然语言,强 GNN 和指纹基线仍必须比较。

ChemBERTa(Chithrananda, Grand, Ramsundar, 2020)是早期系统评估 SMILES Transformer 用于分子性质预测的代表工作。它借鉴 RoBERTa 的 masked language modeling,在大规模 PubChem SMILES 上预训练。

读论文要点

  • 输入是 SMILES:模型学的是字符串语法和其背后的化学模式。
  • 预训练数据规模:论文使用大规模 SMILES 语料,探索数据量对下游性能的影响。
  • 下游评估:主要在 MoleculeNet 等性质预测任务上微调。

不要误读

  • SMILES 有非唯一性,同一分子可写成多种字符串;需要 canonical/randomized SMILES 策略。
  • Transformer 表现好不代表 GNN 过时;D-MPNN、指纹+树模型仍是强基线。
  • 它适合学习分子语言模型路线,不应被写成“已解决分子表征”。

关键要点

  • ChemBERTa = RoBERTa 思路迁移到 SMILES;
  • 价值在大规模预训练和工具生态;
  • 必须与 GNN、指纹模型和不同划分方式比较。

延伸资源

  • 论文:Chithrananda et al., arXiv 2020;配套:147《MolFormer》。