MOSES(Polykovskiy 等, Frontiers in Pharmacology 2020)是分子生成模型的另一套常用基准。它提供经过过滤的分子集合、生成模型基线和一组分布相似性指标。
它主要衡量什么
- 合法性:生成的 SMILES 是否能被化学工具解析。
- 唯一性和新颖性:是否重复,是否只是复制训练集。
- 分布相似性:FCD、SNN、Frag、Scaf、内部多样性等指标衡量生成集与参考集的接近程度。
读论文要抓住边界
- MOSES 更偏分布学习,不是“谁能设计出好药”的终极评测。
- 分布越像训练集,未必越有创新;太新颖又可能不可合成或不可成药。
- 适合早期模型筛选,后面要接目标函数、合成路线、结构假设和实验验证。
关键要点
- MOSES 看生成分子集合是否合理、相似、多样;
- 它不直接回答活性、选择性和合成可行性;
- 应与 GuacaMol、合成评估和项目目标联合使用。
延伸资源
- 论文:Polykovskiy et al., Front. Pharmacol. 2020;代码:molecularsets/moses。