AIDD·Atlas AI 制药学习地图

136

MOSES 论文精读：分布学习基准能回答什么，不能回答什么

MOSES 提供标准分子集合、指标和基线，适合评估生成模型是否学到类似训练集的化学分布，但不直接评估药物发现价值。

MOSES（Polykovskiy 等, Frontiers in Pharmacology 2020）是分子生成模型的另一套常用基准。它提供经过过滤的分子集合、生成模型基线和一组分布相似性指标。

它主要衡量什么

合法性：生成的 SMILES 是否能被化学工具解析。
唯一性和新颖性：是否重复，是否只是复制训练集。
分布相似性：FCD、SNN、Frag、Scaf、内部多样性等指标衡量生成集与参考集的接近程度。

读论文要抓住边界

MOSES 更偏分布学习，不是“谁能设计出好药”的终极评测。
分布越像训练集，未必越有创新；太新颖又可能不可合成或不可成药。
适合早期模型筛选，后面要接目标函数、合成路线、结构假设和实验验证。

关键要点

MOSES 看生成分子集合是否合理、相似、多样；
它不直接回答活性、选择性和合成可行性；
应与 GuacaMol、合成评估和项目目标联合使用。

延伸资源

论文：Polykovskiy et al., Front. Pharmacol. 2020；代码：molecularsets/moses。