AIDD·Atlas AI 制药学习地图
328

RDKit 标准化分子:建立可靠训练集

用 RDKit MolStandardize 统一互变异构、电荷与官能团画法,让相同分子有相同表示。

同一分子的不同互变异构/质子化/画法会被模型当成不同样本。用 RDKit MolStandardize 统一它们。

操作步骤

  1. from rdkit.Chem.MolStandardize import rdMolStandardize
  2. Normalizer 规整官能团画法;
  3. Reionizer/Uncharger 处理电荷与质子化;
  4. TautomerEnumerator.Canonicalize 选规范互变异构态;
  5. 对全数据集统一应用同一套标准化管线并记录版本。

常见坑与提示

互变异构标准化较慢,大数据集注意性能;标准化会改变结构,需确认与下游任务一致(如对接可能需要特定质子化态)。可参考 ChEMBL 的结构标准化流程。

延伸资源

  • 概念见 046《分子标准化》;下一步 329。