Transformer 在分子领域有多种形态:SMILES 语言模型、蛋白语言模型、图 Transformer、3D Transformer、结构预测模块以及文本-分子多模态模型。不同输入决定了模型能学到什么。
几类用法
- SMILES Transformer:ChemBERTa、MolFormer,把分子当字符串。
- 蛋白 Transformer:ESM、ProtT5,从蛋白序列学习结构/功能表征。
- 图/3D Transformer:在原子、键、距离、坐标上建模空间关系。
- 多模态 Transformer:融合结构、序列、文本、组学或实验描述。
阅读判断
- 先看输入表示:字符串模型不能天然理解三维口袋。
- 再看预训练任务:masked token、坐标去噪、对比学习学到的东西不同。
- 最后看评测划分:Transformer 大模型也会被数据泄漏骗高分。
关键要点
- Transformer 是通用架构,不是药物发现专用答案;
- 输入模态和预训练任务决定能力边界;
- 必须与 GNN、指纹、3D 等强基线比较。
延伸资源
- 配套:145《ChemBERTa》、147《MolFormer》、143《ESM-2》。