ChemBERTa 论文精读：SMILES Transformer 的价值和局限

ChemBERTa（Chithrananda, Grand, Ramsundar, 2020）是早期系统评估 SMILES Transformer 用于分子性质预测的代表工作。它借鉴 RoBERTa 的 masked language modeling，在大规模 PubChem SMILES 上预训练。

读论文要点

输入是 SMILES：模型学的是字符串语法和其背后的化学模式。
预训练数据规模：论文使用大规模 SMILES 语料，探索数据量对下游性能的影响。
下游评估：主要在 MoleculeNet 等性质预测任务上微调。

不要误读

SMILES 有非唯一性，同一分子可写成多种字符串；需要 canonical/randomized SMILES 策略。
Transformer 表现好不代表 GNN 过时；D-MPNN、指纹+树模型仍是强基线。
它适合学习分子语言模型路线，不应被写成“已解决分子表征”。

关键要点

ChemBERTa = RoBERTa 思路迁移到 SMILES；
价值在大规模预训练和工具生态；
必须与 GNN、指纹模型和不同划分方式比较。

延伸资源

论文：Chithrananda et al., arXiv 2020；配套：147《MolFormer》。