AIDD·Atlas AI 制药学习地图

169

Benchmark 陷阱：AI 制药论文高分是怎样被制造出来的

数据泄漏、近似重复、随机划分、弱基线、指标选择和 cherry-picking 都能制造虚假高性能。读论文先审评测设计。

AI 制药论文里最危险的不是模型复杂，而是评测设计让模型“看起来很强”。Benchmark 陷阱会把不可落地的方法包装成突破。

常见陷阱

数据泄漏：标准化、特征选择、去重或同系列类似物跨训练/测试导致信息泄漏。
随机划分滥用：把外推任务变成内插任务。
弱基线：只和过时模型比，不和 ECFP+RF、Chemprop、最新强基线比。
指标误导：类别不平衡还报 accuracy，只报最佳种子或单次结果。
代理目标刷分：生成模型优化 QED/logP 等代理指标，却忽略合成和实验价值。

读论文检查清单

数据来源、去重、划分和负样本怎么做？
有没有 scaffold/time/cold split？有没有外部测试？
基线是否足够强？结果是否报告多种子方差？
有没有前瞻实验验证，还是只在历史数据回测？

关键要点

高分先看评测设计，不要先看模型名字；
泄漏、弱基线和错误划分最常制造假突破；
真实药研价值要靠外部/前瞻/实验验证。

延伸资源

配套：132《MoleculeNet》、133《TDC》、167《模型外推性》。