AIDD·Atlas AI 制药学习地图

140

DeepDTA 论文精读：序列模型为什么成为 DTA 早期基线

DeepDTA 用 CNN 分别编码 SMILES 和蛋白序列，是 DTA 深度学习早期经典基线。它简单、可复现，但忽略分子图和蛋白结构。

DeepDTA（Öztürk 等, Bioinformatics 2018）是药物-靶点亲和力预测的早期深度学习基线。它的输入非常直接：药物 SMILES 字符串和蛋白氨基酸序列。

模型结构

药物分支：把 SMILES 当字符序列，用 1D CNN 提取局部模式。
蛋白分支：把氨基酸序列也用 1D CNN 编码。
融合回归：拼接两边表示后预测 Davis/KIBA 等数据集中的亲和力。

价值与局限

价值在于简单、端到端、易复现，因此常作为 DTA 基线。
SMILES 字符串对同一分子有多种写法，模型可能学到语法而非化学本质。
蛋白序列不等于结合口袋结构，无法处理构象、口袋水、诱导契合等问题。

关键要点

DeepDTA = SMILES CNN + protein CNN 的早期 DTA 基线；
适合教学和对照，不适合作为结构药设决策依据；
后续 GraphDTA、MolTrans 等都在弥补它的表示缺陷。

延伸资源

论文：Öztürk et al., Bioinformatics 2018；配套：139《GraphDTA》、141《MolTrans》。