AIDD·Atlas AI 制药学习地图
166

不确定性估计:模型什么时候应该说“我不知道”

药物发现最怕模型在分布外还很自信。不确定性估计用于主动学习、风险预警和决策分层,但必须校准。

不确定性估计让模型不仅输出预测值,还输出“这个预测有多可信”。药物发现里,知道什么时候不该相信模型,往往比模型平均分数更重要。

两类不确定性

  • Aleatoric:数据和实验本身的噪声,例如 assay 波动、标签不一致。
  • Epistemic:模型对陌生化学空间的无知,可通过更多数据降低。

常用方法

  • 集成模型:多个模型预测分歧可作为不确定性信号。
  • MC Dropout / Bayesian 方法:近似估计模型分布。
  • 共形预测:给出覆盖率可校准的预测区间,适合决策沟通。

怎么用

  • 主动学习中优先测试高价值且高不确定区域。
  • 上线模型应标出“适用域外”分子,而不是硬给精确数值。
  • 不确定性要校准;说 90% 覆盖,就要在验证集上接近 90%。

关键要点

  • 不确定性分数据噪声和模型无知;
  • 它服务主动学习、适用域和风险分层;
  • 未校准的不确定性会制造另一种错觉。

延伸资源

  • 配套:165《主动学习》、167《模型外推性》。