AIDD·Atlas AI 制药学习地图
136

MOSES 论文精读:分布学习基准能回答什么,不能回答什么

MOSES 提供标准分子集合、指标和基线,适合评估生成模型是否学到类似训练集的化学分布,但不直接评估药物发现价值。

MOSES(Polykovskiy 等, Frontiers in Pharmacology 2020)是分子生成模型的另一套常用基准。它提供经过过滤的分子集合、生成模型基线和一组分布相似性指标。

它主要衡量什么

  • 合法性:生成的 SMILES 是否能被化学工具解析。
  • 唯一性和新颖性:是否重复,是否只是复制训练集。
  • 分布相似性:FCD、SNN、Frag、Scaf、内部多样性等指标衡量生成集与参考集的接近程度。

读论文要抓住边界

  • MOSES 更偏分布学习,不是“谁能设计出好药”的终极评测。
  • 分布越像训练集,未必越有创新;太新颖又可能不可合成或不可成药。
  • 适合早期模型筛选,后面要接目标函数、合成路线、结构假设和实验验证。

关键要点

  • MOSES 看生成分子集合是否合理、相似、多样;
  • 它不直接回答活性、选择性和合成可行性;
  • 应与 GuacaMol、合成评估和项目目标联合使用。

延伸资源

  • 论文:Polykovskiy et al., Front. Pharmacol. 2020;代码:molecularsets/moses。