AIDD·Atlas AI 制药学习地图

135

GuacaMol 论文精读：分子生成评测为什么容易被刷分

GuacaMol 提供分布学习和目标导向两类分子生成基准。它让模型可比，但代理目标很容易被优化器“钻空子”。

GuacaMol（Brown 等, JCIM 2019）是分子生成模型评测的经典基准。它关心两个问题：模型能否学到训练集分布，以及能否生成满足目标函数的分子。

两类任务

分布学习：看有效性、唯一性、新颖性、KL divergence、FCD 等，判断生成分子是否像训练数据。
目标导向：给定相似性、logP、TPSA、药效团等目标函数，看模型能否优化分子。
强基线意义：论文不仅评深度模型，也评遗传算法等传统优化器，提醒新模型未必天然更强。

局限

目标函数多是代理指标，不等于真实活性、选择性、合成可行性或安全性。
模型可能生成“分数好看但化学没意义”的分子，所以要加合成和物理过滤。
用于论文比较可以，用于项目立项必须接入真实 assay 和合成反馈。

关键要点

GuacaMol 让分子生成模型有统一评测入口；
高分可能只是优化代理目标，不等于可成药；
生成模型必须接合成、对接/活性和 ADMET 过滤。

延伸资源

论文：Brown et al., JCIM 2019；配套：136《MOSES》、158《分子生成模型》。