AIDD·Atlas AI 制药学习地图
167

模型外推性:药物发现真正考验的是新骨架和未来数据

随机测试集分数多半衡量内插,不代表新系列、新靶点或未来项目表现。外推评估要看 scaffold、time、cold split 和适用域。

药物发现中的模型通常不是用来预测“已经很像训练集”的分子,而是用来指导下一轮新设计。因此,外推性才是核心:新骨架、新取代、新 assay 批次、新靶点上还可信吗?

为什么随机划分不够

  • 同一化学系列的类似物可能同时出现在训练集和测试集,模型像是在补 SAR 表。
  • 测试集和训练集分布太近时,分数反映内插能力,不反映真实设计风险。
  • 项目迭代往往沿时间发生,未来批次比随机测试更接近真实部署。

更诚实的评估

  • Scaffold split:测试新骨架泛化。
  • Time split:用过去训练、未来测试,模拟项目推进。
  • Cold split:DTA/DTI 中测试新药物、新靶点或两者都新。
  • Applicability domain:明确哪些分子不该信模型。

关键要点

  • 随机测试集高分常高估药研价值;
  • 外推要用 scaffold/time/cold split 检验;
  • 模型必须报告适用域和失败边界。

延伸资源

  • 配套:051《Scaffold Split》、169《Benchmark 陷阱》。