AIDD·Atlas AI 制药学习地图

166

不确定性估计：模型什么时候应该说“我不知道”

药物发现最怕模型在分布外还很自信。不确定性估计用于主动学习、风险预警和决策分层，但必须校准。

不确定性估计让模型不仅输出预测值，还输出“这个预测有多可信”。药物发现里，知道什么时候不该相信模型，往往比模型平均分数更重要。

两类不确定性

Aleatoric：数据和实验本身的噪声，例如 assay 波动、标签不一致。
Epistemic：模型对陌生化学空间的无知，可通过更多数据降低。

常用方法

集成模型：多个模型预测分歧可作为不确定性信号。
MC Dropout / Bayesian 方法：近似估计模型分布。
共形预测：给出覆盖率可校准的预测区间，适合决策沟通。

怎么用

主动学习中优先测试高价值且高不确定区域。
上线模型应标出“适用域外”分子，而不是硬给精确数值。
不确定性要校准；说 90% 覆盖，就要在验证集上接近 90%。

关键要点

不确定性分数据噪声和模型无知；
它服务主动学习、适用域和风险分层；
未校准的不确定性会制造另一种错觉。

延伸资源

配套：165《主动学习》、167《模型外推性》。