同一分子的不同互变异构/质子化/画法会被模型当成不同样本。用 RDKit MolStandardize 统一它们。
操作步骤
from rdkit.Chem.MolStandardize import rdMolStandardize;- 用
Normalizer规整官能团画法; - 用
Reionizer/Uncharger处理电荷与质子化; - 用
TautomerEnumerator.Canonicalize选规范互变异构态; - 对全数据集统一应用同一套标准化管线并记录版本。
常见坑与提示
互变异构标准化较慢,大数据集注意性能;标准化会改变结构,需确认与下游任务一致(如对接可能需要特定质子化态)。可参考 ChEMBL 的结构标准化流程。
延伸资源
- 概念见 046《分子标准化》;下一步 329。