AIDD·Atlas AI 制药学习地图

167

模型外推性：药物发现真正考验的是新骨架和未来数据

随机测试集分数多半衡量内插，不代表新系列、新靶点或未来项目表现。外推评估要看 scaffold、time、cold split 和适用域。

药物发现中的模型通常不是用来预测“已经很像训练集”的分子，而是用来指导下一轮新设计。因此，外推性才是核心：新骨架、新取代、新 assay 批次、新靶点上还可信吗？

为什么随机划分不够

同一化学系列的类似物可能同时出现在训练集和测试集，模型像是在补 SAR 表。
测试集和训练集分布太近时，分数反映内插能力，不反映真实设计风险。
项目迭代往往沿时间发生，未来批次比随机测试更接近真实部署。

更诚实的评估

Scaffold split：测试新骨架泛化。
Time split：用过去训练、未来测试，模拟项目推进。
Cold split：DTA/DTI 中测试新药物、新靶点或两者都新。
Applicability domain：明确哪些分子不该信模型。

关键要点

随机测试集高分常高估药研价值；
外推要用 scaffold/time/cold split 检验；
模型必须报告适用域和失败边界。

延伸资源

配套：051《Scaffold Split》、169《Benchmark 陷阱》。