AIDD·Atlas AI 制药学习地图
140

DeepDTA 论文精读:序列模型为什么成为 DTA 早期基线

DeepDTA 用 CNN 分别编码 SMILES 和蛋白序列,是 DTA 深度学习早期经典基线。它简单、可复现,但忽略分子图和蛋白结构。

DeepDTA(Öztürk 等, Bioinformatics 2018)是药物-靶点亲和力预测的早期深度学习基线。它的输入非常直接:药物 SMILES 字符串和蛋白氨基酸序列。

模型结构

  • 药物分支:把 SMILES 当字符序列,用 1D CNN 提取局部模式。
  • 蛋白分支:把氨基酸序列也用 1D CNN 编码。
  • 融合回归:拼接两边表示后预测 Davis/KIBA 等数据集中的亲和力。

价值与局限

  • 价值在于简单、端到端、易复现,因此常作为 DTA 基线。
  • SMILES 字符串对同一分子有多种写法,模型可能学到语法而非化学本质。
  • 蛋白序列不等于结合口袋结构,无法处理构象、口袋水、诱导契合等问题。

关键要点

  • DeepDTA = SMILES CNN + protein CNN 的早期 DTA 基线;
  • 适合教学和对照,不适合作为结构药设决策依据;
  • 后续 GraphDTA、MolTrans 等都在弥补它的表示缺陷。

延伸资源

  • 论文:Öztürk et al., Bioinformatics 2018;配套:139《GraphDTA》、141《MolTrans》。