主动学习让模型参与“下一批做什么实验”的决策。它不是简单挑预测分最高的分子,而是在探索和利用之间做权衡,用更少实验获得最大信息量。
常见采集策略
- 不确定性采样:优先做模型最不确定的分子,改善模型。
- 贪心利用:优先做预测最优的分子,追求短期项目推进。
- 多样性采样:覆盖更多化学空间,避免同质化。
- 贝叶斯优化:综合预测均值和不确定性,平衡探索/利用。
药研落地条件
- 必须有可靠的不确定性估计;如果模型过度自信,主动学习会走偏。
- 合成周期和实验成本必须纳入采集函数,不能只看模型信息量。
- 每轮实验数据要及时标准化并回灌,形成真正 DMTA 闭环。
关键要点
- 主动学习选的是“最值得实验”的分子,不一定是最高分分子;
- 采集策略要匹配项目阶段;
- 不确定性、合成成本和实验回灌是落地关键。
延伸资源
- 配套:166《不确定性估计》、DMTA 实战流程模块。