用 Scaffold Split 评估模型真实外推能力

用骨架划分让测试集骨架不出现在训练集，逼近「面对新化学型」的真实场景，避免随机划分虚高。

随机划分会让模型靠「记住类似物」拿虚高分。用 Scaffold Split 评估对新骨架的真实泛化。

操作步骤

常见坑与提示

随机划分分数通常明显高于骨架划分，差距越大越说明模型靠记忆；更严苛可用时间划分。务必先去重再划分（见 329）。