AIDD·Atlas AI 制药学习地图
161

Transformer 在分子中的应用:从 SMILES 到图、3D 和多模态

Transformer 可用于 SMILES、分子图、蛋白序列、3D 结构和文本融合。它擅长建模关系,但不应被简化成“注意力万能”。

Transformer 在分子领域有多种形态:SMILES 语言模型、蛋白语言模型、图 Transformer、3D Transformer、结构预测模块以及文本-分子多模态模型。不同输入决定了模型能学到什么。

几类用法

  • SMILES Transformer:ChemBERTa、MolFormer,把分子当字符串。
  • 蛋白 Transformer:ESM、ProtT5,从蛋白序列学习结构/功能表征。
  • 图/3D Transformer:在原子、键、距离、坐标上建模空间关系。
  • 多模态 Transformer:融合结构、序列、文本、组学或实验描述。

阅读判断

  • 先看输入表示:字符串模型不能天然理解三维口袋。
  • 再看预训练任务:masked token、坐标去噪、对比学习学到的东西不同。
  • 最后看评测划分:Transformer 大模型也会被数据泄漏骗高分。

关键要点

  • Transformer 是通用架构,不是药物发现专用答案;
  • 输入模态和预训练任务决定能力边界;
  • 必须与 GNN、指纹、3D 等强基线比较。

延伸资源

  • 配套:145《ChemBERTa》、147《MolFormer》、143《ESM-2》。