AIDD·Atlas AI 制药学习地图
135

GuacaMol 论文精读:分子生成评测为什么容易被刷分

GuacaMol 提供分布学习和目标导向两类分子生成基准。它让模型可比,但代理目标很容易被优化器“钻空子”。

GuacaMol(Brown 等, JCIM 2019)是分子生成模型评测的经典基准。它关心两个问题:模型能否学到训练集分布,以及能否生成满足目标函数的分子。

两类任务

  • 分布学习:看有效性、唯一性、新颖性、KL divergence、FCD 等,判断生成分子是否像训练数据。
  • 目标导向:给定相似性、logP、TPSA、药效团等目标函数,看模型能否优化分子。
  • 强基线意义:论文不仅评深度模型,也评遗传算法等传统优化器,提醒新模型未必天然更强。

局限

  • 目标函数多是代理指标,不等于真实活性、选择性、合成可行性或安全性。
  • 模型可能生成“分数好看但化学没意义”的分子,所以要加合成和物理过滤。
  • 用于论文比较可以,用于项目立项必须接入真实 assay 和合成反馈。

关键要点

  • GuacaMol 让分子生成模型有统一评测入口;
  • 高分可能只是优化代理目标,不等于可成药;
  • 生成模型必须接合成、对接/活性和 ADMET 过滤。

延伸资源

  • 论文:Brown et al., JCIM 2019;配套:136《MOSES》、158《分子生成模型》。