AIDD·Atlas AI 制药学习地图
169

Benchmark 陷阱:AI 制药论文高分是怎样被制造出来的

数据泄漏、近似重复、随机划分、弱基线、指标选择和 cherry-picking 都能制造虚假高性能。读论文先审评测设计。

AI 制药论文里最危险的不是模型复杂,而是评测设计让模型“看起来很强”。Benchmark 陷阱会把不可落地的方法包装成突破。

常见陷阱

  • 数据泄漏:标准化、特征选择、去重或同系列类似物跨训练/测试导致信息泄漏。
  • 随机划分滥用:把外推任务变成内插任务。
  • 弱基线:只和过时模型比,不和 ECFP+RF、Chemprop、最新强基线比。
  • 指标误导:类别不平衡还报 accuracy,只报最佳种子或单次结果。
  • 代理目标刷分:生成模型优化 QED/logP 等代理指标,却忽略合成和实验价值。

读论文检查清单

  • 数据来源、去重、划分和负样本怎么做?
  • 有没有 scaffold/time/cold split?有没有外部测试?
  • 基线是否足够强?结果是否报告多种子方差?
  • 有没有前瞻实验验证,还是只在历史数据回测?

关键要点

  • 高分先看评测设计,不要先看模型名字;
  • 泄漏、弱基线和错误划分最常制造假突破;
  • 真实药研价值要靠外部/前瞻/实验验证。

延伸资源

  • 配套:132《MoleculeNet》、133《TDC》、167《模型外推性》。