AIDD·Atlas AI 制药学习地图

139

GraphDTA 论文精读：DTA 预测为什么不能只换药物表示

GraphDTA 用分子图替代 SMILES 字符串来预测药物-靶点亲和力。它验证了图表示价值，但蛋白侧仍较粗糙，冷启动和数据偏差是大问题。

GraphDTA（Nguyen 等, Bioinformatics 2021）把 drug-target affinity 预测建成回归任务：输入药物和靶点，输出连续亲和力。它的关键改变是药物侧不用字符串 CNN，而用分子图和 GNN。

核心做法

药物侧：从 SMILES 构建分子图，用 GCN、GAT、GIN、GAT-GCN 等学习药物表示。
蛋白侧：仍主要用氨基酸序列 CNN 表征，没有显式用三维结构。
数据集：常用 Davis 和 KIBA，输出亲和力回归指标。

怎么读它的结果

它说明药物分子图比纯字符串更自然，但不等于解决 DTA。
Davis/KIBA 是高度整理过的小世界，真实项目会遇到新靶点、新骨架和实验体系差异。
如果测试集没有做冷启动，模型可能只是记住已知药物/靶点邻域。

关键要点

GraphDTA 的贡献是把药物侧图表示引入 DTA；
蛋白侧序列表征仍有限，结构信息缺失；
评价时重点看 drug/target cold split，而不是普通随机划分。

延伸资源

论文：Nguyen et al., Bioinformatics 2021；配套：140《DeepDTA》、157《AI DTI 预测》。