AI 制药论文里最危险的不是模型复杂,而是评测设计让模型“看起来很强”。Benchmark 陷阱会把不可落地的方法包装成突破。
常见陷阱
- 数据泄漏:标准化、特征选择、去重或同系列类似物跨训练/测试导致信息泄漏。
- 随机划分滥用:把外推任务变成内插任务。
- 弱基线:只和过时模型比,不和 ECFP+RF、Chemprop、最新强基线比。
- 指标误导:类别不平衡还报 accuracy,只报最佳种子或单次结果。
- 代理目标刷分:生成模型优化 QED/logP 等代理指标,却忽略合成和实验价值。
读论文检查清单
- 数据来源、去重、划分和负样本怎么做?
- 有没有 scaffold/time/cold split?有没有外部测试?
- 基线是否足够强?结果是否报告多种子方差?
- 有没有前瞻实验验证,还是只在历史数据回测?
关键要点
- 高分先看评测设计,不要先看模型名字;
- 泄漏、弱基线和错误划分最常制造假突破;
- 真实药研价值要靠外部/前瞻/实验验证。
延伸资源
- 配套:132《MoleculeNet》、133《TDC》、167《模型外推性》。