AIDD·Atlas AI 制药学习地图
139

GraphDTA 论文精读:DTA 预测为什么不能只换药物表示

GraphDTA 用分子图替代 SMILES 字符串来预测药物-靶点亲和力。它验证了图表示价值,但蛋白侧仍较粗糙,冷启动和数据偏差是大问题。

GraphDTA(Nguyen 等, Bioinformatics 2021)把 drug-target affinity 预测建成回归任务:输入药物和靶点,输出连续亲和力。它的关键改变是药物侧不用字符串 CNN,而用分子图和 GNN。

核心做法

  • 药物侧:从 SMILES 构建分子图,用 GCN、GAT、GIN、GAT-GCN 等学习药物表示。
  • 蛋白侧:仍主要用氨基酸序列 CNN 表征,没有显式用三维结构。
  • 数据集:常用 Davis 和 KIBA,输出亲和力回归指标。

怎么读它的结果

  • 它说明药物分子图比纯字符串更自然,但不等于解决 DTA。
  • Davis/KIBA 是高度整理过的小世界,真实项目会遇到新靶点、新骨架和实验体系差异。
  • 如果测试集没有做冷启动,模型可能只是记住已知药物/靶点邻域。

关键要点

  • GraphDTA 的贡献是把药物侧图表示引入 DTA;
  • 蛋白侧序列表征仍有限,结构信息缺失;
  • 评价时重点看 drug/target cold split,而不是普通随机划分。

延伸资源

  • 论文:Nguyen et al., Bioinformatics 2021;配套:140《DeepDTA》、157《AI DTI 预测》。