AIDD·Atlas AI 制药学习地图

159

图神经网络 GNN：分子图模型强在哪里，为什么仍会输给指纹基线

GNN 能直接从分子图学习表示，但小数据、标签噪声和划分不当时，ECFP+树模型仍可能更稳。不要把 GNN 当默认答案。

图神经网络把分子看成原子和键构成的图，通过消息传递学习结构表示。它是分子性质预测的重要模型族，但不是“用了 GNN 就更科学”。

GNN 的优势

结构端到端：无需手写所有指纹特征，可从图中学习局部化学环境。
可扩展：可加入边特征、全局描述符、3D 距离、反应条件等。
适合多任务：共享图表示可服务多终点预测。

常见失败原因

数据太小或标签噪声太高时，GNN 容易过拟合。
普通 2D GNN 不知道真实构象和立体环境，手性/构象任务需特殊处理。
如果测试集泄漏同系列类似物，GNN 高分可能只是记忆局部结构。

关键要点

GNN 强在从分子图学习结构表示；
小数据下必须与 ECFP + RF/XGBoost 等基线比较；
涉及 3D 和手性时要考虑等变网络或 3D 特征。

延伸资源

配套：131《Chemprop》、160《等变神经网络》。