AIDD·Atlas AI 制药学习地图
332

用 Scaffold Split 评估模型真实外推能力

用骨架划分让测试集骨架不出现在训练集,逼近「面对新化学型」的真实场景,避免随机划分虚高。

随机划分会让模型靠「记住类似物」拿虚高分。用 Scaffold Split 评估对新骨架的真实泛化。

操作步骤

  1. 用 Bemis–Murcko 提取每个分子的骨架(见 041);
  2. 按骨架分组,让同一骨架只进训练或只进测试;
  3. 或直接用 DeepChem/TDC 内置的 ScaffoldSplitter;
  4. 对比「随机划分」与「骨架划分」的分数差距;
  5. 报告骨架划分结果作为更诚实的外推评估。

常见坑与提示

随机划分分数通常明显高于骨架划分,差距越大越说明模型靠记忆;更严苛可用时间划分。务必先去重再划分(见 329)。

延伸资源

  • 概念见 051、167;陷阱见 169。