随机划分会让模型靠「记住类似物」拿虚高分。用 Scaffold Split 评估对新骨架的真实泛化。
操作步骤
- 用 Bemis–Murcko 提取每个分子的骨架(见 041);
- 按骨架分组,让同一骨架只进训练或只进测试;
- 或直接用 DeepChem/TDC 内置的 ScaffoldSplitter;
- 对比「随机划分」与「骨架划分」的分数差距;
- 报告骨架划分结果作为更诚实的外推评估。
常见坑与提示
随机划分分数通常明显高于骨架划分,差距越大越说明模型靠记忆;更严苛可用时间划分。务必先去重再划分(见 329)。
延伸资源
- 概念见 051、167;陷阱见 169。