AIDD·Atlas AI 制药学习地图

132

MoleculeNet 论文精读：分子机器学习基准的价值和过时之处

MoleculeNet 统一了数据集、划分和指标，是分子 ML 基准化的起点；但它不是排行榜真理，数据小、噪声、随机划分和任务老化都要警惕。

MoleculeNet（Wu 等, Chemical Science 2018）解决的是一个基础问题：分子机器学习论文如果各用各的数据、划分和指标，结果就不可比。它整理了量子化学、物理化学、生物活性和毒性等数据集，并给出标准评测思路。

它的贡献

统一任务集合：QM7/QM8/QM9、ESOL、FreeSolv、Lipophilicity、Tox21、HIV 等常被沿用。
统一指标：分类多用 ROC-AUC，回归多用 RMSE/MAE，便于方法比较。
带出 DeepChem 生态：MoleculeNet 与 DeepChem 结合，使数据加载和基线复现更方便。

今天怎么读

它是入门基准，不是药物研发项目的最终验收；很多数据集规模小、标签噪声高。
随机划分成绩常常高估新骨架外推，看到论文只报 random split 要打问号。
真正做项目时，应补充内部时间切分、同系列留出、外部实验批次验证。

关键要点

MoleculeNet 让分子 ML 结果开始可比；
它的老基准不能直接代表真实药物项目能力；
读论文时先看数据集、划分方式和强基线。

延伸资源

论文：Wu et al., Chem. Sci. 2018；配套：167《模型外推性》、169《Benchmark 陷阱》。