GuacaMol(Brown 等, JCIM 2019)是分子生成模型评测的经典基准。它关心两个问题:模型能否学到训练集分布,以及能否生成满足目标函数的分子。
两类任务
- 分布学习:看有效性、唯一性、新颖性、KL divergence、FCD 等,判断生成分子是否像训练数据。
- 目标导向:给定相似性、logP、TPSA、药效团等目标函数,看模型能否优化分子。
- 强基线意义:论文不仅评深度模型,也评遗传算法等传统优化器,提醒新模型未必天然更强。
局限
- 目标函数多是代理指标,不等于真实活性、选择性、合成可行性或安全性。
- 模型可能生成“分数好看但化学没意义”的分子,所以要加合成和物理过滤。
- 用于论文比较可以,用于项目立项必须接入真实 assay 和合成反馈。
关键要点
- GuacaMol 让分子生成模型有统一评测入口;
- 高分可能只是优化代理目标,不等于可成药;
- 生成模型必须接合成、对接/活性和 ADMET 过滤。
延伸资源
- 论文:Brown et al., JCIM 2019;配套:136《MOSES》、158《分子生成模型》。