AIDD·Atlas AI 制药学习地图
159

图神经网络 GNN:分子图模型强在哪里,为什么仍会输给指纹基线

GNN 能直接从分子图学习表示,但小数据、标签噪声和划分不当时,ECFP+树模型仍可能更稳。不要把 GNN 当默认答案。

图神经网络把分子看成原子和键构成的图,通过消息传递学习结构表示。它是分子性质预测的重要模型族,但不是“用了 GNN 就更科学”。

GNN 的优势

  • 结构端到端:无需手写所有指纹特征,可从图中学习局部化学环境。
  • 可扩展:可加入边特征、全局描述符、3D 距离、反应条件等。
  • 适合多任务:共享图表示可服务多终点预测。

常见失败原因

  • 数据太小或标签噪声太高时,GNN 容易过拟合。
  • 普通 2D GNN 不知道真实构象和立体环境,手性/构象任务需特殊处理。
  • 如果测试集泄漏同系列类似物,GNN 高分可能只是记忆局部结构。

关键要点

  • GNN 强在从分子图学习结构表示;
  • 小数据下必须与 ECFP + RF/XGBoost 等基线比较;
  • 涉及 3D 和手性时要考虑等变网络或 3D 特征。

延伸资源

  • 配套:131《Chemprop》、160《等变神经网络》。