AIDD·Atlas AI 制药学习地图
155

AI 活性预测模型:先定义决策,再选择分类、回归或排序

活性预测不是默认做回归。HTS 富集、先导优化和 SAR 解释需要不同任务形态、指标和划分方式。

AI 活性预测最常见,也最容易做错。问题不是“用哪个模型”,而是先定义你要支持什么决策:筛库、选合成优先级、解释 SAR,还是估计绝对 potency。

三种任务形态

  • 分类:适合命中/非命中、活性阈值筛选;要注意阈值附近标签噪声。
  • 回归:适合高质量 pIC50/pKi/pKd 数据;不同 assay 混合时必须做标准化。
  • 排序/富集:虚拟筛选常只需要把更可能活性的分子排前面,EF、BEDROC、PR-AUC 可能比 RMSE 更有用。

关键陷阱

  • 同一靶点不同实验体系、细胞背景和读数不能随便合并。
  • 随机划分会把同系列类似物泄漏到测试集,造成虚高。
  • 模型给出的活性只是优先级建议,不是实验替代。

关键要点

  • 先定义决策,再选分类/回归/排序;
  • 活性数据必须处理 assay 差异和类似物泄漏;
  • 虚拟筛选看富集,先导优化看同系列外推和实验闭环。

延伸资源

  • 配套:044《QSAR》、167《模型外推性》、169《Benchmark 陷阱》。