AIDD·Atlas AI 制药学习地图

131

Chemprop / D-MPNN 论文精读：为什么强基线比新模型更重要

Chemprop 的 D-MPNN 是分子性质预测长期强基线。读这篇不是为了追新，而是学会怎样做可靠划分、特征拼接、集成和误差评估。

Chemprop / D-MPNN源于 Yang 等人在 2019 年 JCIM 发表的工作，后来发展成常用的开源分子性质预测工具。它的价值不只是一个图神经网络架构，而是把模型、数据划分、集成和不确定性意识放进了可复现工作流。

论文到底做了什么

有向键上传递消息：D-MPNN 在有向化学键之间传递信息，减少普通原子消息传递中信息来回回流的问题。
分子图 + 描述符：模型可把图表示与 RDKit 描述符、实验条件等额外特征拼接，不迷信纯深度学习。
强调评估设置：论文和工具都提醒随机划分容易高估效果，真实项目更应看 scaffold / time split。

怎么用于药物项目

适合做活性、ADMET、理化性质的第一版强基线；先用它打败简单指纹模型，再谈更复杂模型。
小数据下不要只报单模型分数，建议用多随机种子、集成和外部测试集。
它预测的是相关性，不是机理；对新骨架外推时必须看适用域和不确定性。

关键要点

D-MPNN 的核心是有向键消息传递；
Chemprop 更应被当作强基线和工程框架；
项目判断看划分、外部验证和适用域，不只看 ROC-AUC/RMSE。

延伸资源

论文：Yang et al., JCIM 2019；工具论文：Chemprop, JCIM 2023；配套：169《Benchmark 陷阱》。