DeepDTA(Öztürk 等, Bioinformatics 2018)是药物-靶点亲和力预测的早期深度学习基线。它的输入非常直接:药物 SMILES 字符串和蛋白氨基酸序列。
模型结构
- 药物分支:把 SMILES 当字符序列,用 1D CNN 提取局部模式。
- 蛋白分支:把氨基酸序列也用 1D CNN 编码。
- 融合回归:拼接两边表示后预测 Davis/KIBA 等数据集中的亲和力。
价值与局限
- 价值在于简单、端到端、易复现,因此常作为 DTA 基线。
- SMILES 字符串对同一分子有多种写法,模型可能学到语法而非化学本质。
- 蛋白序列不等于结合口袋结构,无法处理构象、口袋水、诱导契合等问题。
关键要点
- DeepDTA = SMILES CNN + protein CNN 的早期 DTA 基线;
- 适合教学和对照,不适合作为结构药设决策依据;
- 后续 GraphDTA、MolTrans 等都在弥补它的表示缺陷。
延伸资源
- 论文:Öztürk et al., Bioinformatics 2018;配套:139《GraphDTA》、141《MolTrans》。