药物发现中的模型通常不是用来预测“已经很像训练集”的分子,而是用来指导下一轮新设计。因此,外推性才是核心:新骨架、新取代、新 assay 批次、新靶点上还可信吗?
为什么随机划分不够
- 同一化学系列的类似物可能同时出现在训练集和测试集,模型像是在补 SAR 表。
- 测试集和训练集分布太近时,分数反映内插能力,不反映真实设计风险。
- 项目迭代往往沿时间发生,未来批次比随机测试更接近真实部署。
更诚实的评估
- Scaffold split:测试新骨架泛化。
- Time split:用过去训练、未来测试,模拟项目推进。
- Cold split:DTA/DTI 中测试新药物、新靶点或两者都新。
- Applicability domain:明确哪些分子不该信模型。
关键要点
- 随机测试集高分常高估药研价值;
- 外推要用 scaffold/time/cold split 检验;
- 模型必须报告适用域和失败边界。
延伸资源
- 配套:051《Scaffold Split》、169《Benchmark 陷阱》。