AI 活性预测最常见,也最容易做错。问题不是“用哪个模型”,而是先定义你要支持什么决策:筛库、选合成优先级、解释 SAR,还是估计绝对 potency。
三种任务形态
- 分类:适合命中/非命中、活性阈值筛选;要注意阈值附近标签噪声。
- 回归:适合高质量 pIC50/pKi/pKd 数据;不同 assay 混合时必须做标准化。
- 排序/富集:虚拟筛选常只需要把更可能活性的分子排前面,EF、BEDROC、PR-AUC 可能比 RMSE 更有用。
关键陷阱
- 同一靶点不同实验体系、细胞背景和读数不能随便合并。
- 随机划分会把同系列类似物泄漏到测试集,造成虚高。
- 模型给出的活性只是优先级建议,不是实验替代。
关键要点
- 先定义决策,再选分类/回归/排序;
- 活性数据必须处理 assay 差异和类似物泄漏;
- 虚拟筛选看富集,先导优化看同系列外推和实验闭环。
延伸资源
- 配套:044《QSAR》、167《模型外推性》、169《Benchmark 陷阱》。