AIDD·Atlas AI 制药学习地图
132

MoleculeNet 论文精读:分子机器学习基准的价值和过时之处

MoleculeNet 统一了数据集、划分和指标,是分子 ML 基准化的起点;但它不是排行榜真理,数据小、噪声、随机划分和任务老化都要警惕。

MoleculeNet(Wu 等, Chemical Science 2018)解决的是一个基础问题:分子机器学习论文如果各用各的数据、划分和指标,结果就不可比。它整理了量子化学、物理化学、生物活性和毒性等数据集,并给出标准评测思路。

它的贡献

  • 统一任务集合:QM7/QM8/QM9、ESOL、FreeSolv、Lipophilicity、Tox21、HIV 等常被沿用。
  • 统一指标:分类多用 ROC-AUC,回归多用 RMSE/MAE,便于方法比较。
  • 带出 DeepChem 生态:MoleculeNet 与 DeepChem 结合,使数据加载和基线复现更方便。

今天怎么读

  • 它是入门基准,不是药物研发项目的最终验收;很多数据集规模小、标签噪声高。
  • 随机划分成绩常常高估新骨架外推,看到论文只报 random split 要打问号。
  • 真正做项目时,应补充内部时间切分、同系列留出、外部实验批次验证。

关键要点

  • MoleculeNet 让分子 ML 结果开始可比;
  • 它的老基准不能直接代表真实药物项目能力;
  • 读论文时先看数据集、划分方式和强基线。

延伸资源

  • 论文:Wu et al., Chem. Sci. 2018;配套:167《模型外推性》、169《Benchmark 陷阱》。