ChemBERTa(Chithrananda, Grand, Ramsundar, 2020)是早期系统评估 SMILES Transformer 用于分子性质预测的代表工作。它借鉴 RoBERTa 的 masked language modeling,在大规模 PubChem SMILES 上预训练。
读论文要点
- 输入是 SMILES:模型学的是字符串语法和其背后的化学模式。
- 预训练数据规模:论文使用大规模 SMILES 语料,探索数据量对下游性能的影响。
- 下游评估:主要在 MoleculeNet 等性质预测任务上微调。
不要误读
- SMILES 有非唯一性,同一分子可写成多种字符串;需要 canonical/randomized SMILES 策略。
- Transformer 表现好不代表 GNN 过时;D-MPNN、指纹+树模型仍是强基线。
- 它适合学习分子语言模型路线,不应被写成“已解决分子表征”。
关键要点
- ChemBERTa = RoBERTa 思路迁移到 SMILES;
- 价值在大规模预训练和工具生态;
- 必须与 GNN、指纹模型和不同划分方式比较。
延伸资源
- 论文:Chithrananda et al., arXiv 2020;配套:147《MolFormer》。