不确定性估计让模型不仅输出预测值,还输出“这个预测有多可信”。药物发现里,知道什么时候不该相信模型,往往比模型平均分数更重要。
两类不确定性
- Aleatoric:数据和实验本身的噪声,例如 assay 波动、标签不一致。
- Epistemic:模型对陌生化学空间的无知,可通过更多数据降低。
常用方法
- 集成模型:多个模型预测分歧可作为不确定性信号。
- MC Dropout / Bayesian 方法:近似估计模型分布。
- 共形预测:给出覆盖率可校准的预测区间,适合决策沟通。
怎么用
- 主动学习中优先测试高价值且高不确定区域。
- 上线模型应标出“适用域外”分子,而不是硬给精确数值。
- 不确定性要校准;说 90% 覆盖,就要在验证集上接近 90%。
关键要点
- 不确定性分数据噪声和模型无知;
- 它服务主动学习、适用域和风险分层;
- 未校准的不确定性会制造另一种错觉。
延伸资源
- 配套:165《主动学习》、167《模型外推性》。