AIDD·Atlas AI 制药学习地图

155

AI 活性预测模型：先定义决策，再选择分类、回归或排序

活性预测不是默认做回归。HTS 富集、先导优化和 SAR 解释需要不同任务形态、指标和划分方式。

AI 活性预测最常见，也最容易做错。问题不是“用哪个模型”，而是先定义你要支持什么决策：筛库、选合成优先级、解释 SAR，还是估计绝对 potency。

三种任务形态

分类：适合命中/非命中、活性阈值筛选；要注意阈值附近标签噪声。
回归：适合高质量 pIC50/pKi/pKd 数据；不同 assay 混合时必须做标准化。
排序/富集：虚拟筛选常只需要把更可能活性的分子排前面，EF、BEDROC、PR-AUC 可能比 RMSE 更有用。

关键陷阱

同一靶点不同实验体系、细胞背景和读数不能随便合并。
随机划分会把同系列类似物泄漏到测试集，造成虚高。
模型给出的活性只是优先级建议，不是实验替代。

关键要点

先定义决策，再选分类/回归/排序；
活性数据必须处理 assay 差异和类似物泄漏；
虚拟筛选看富集，先导优化看同系列外推和实验闭环。

延伸资源

配套：044《QSAR》、167《模型外推性》、169《Benchmark 陷阱》。