AIDD·Atlas AI 制药学习地图
327

清洗 SMILES:从原始数据到可训练数据集

原始 SMILES 充满无效、混合物与不一致写法;清洗是从「能下载」到「能训练」的关键一步。

拉到的数据里 SMILES 往往有无效项、混合物、立体/电荷不一致。清洗让它们变成可训练的数据集。

操作步骤

  1. 用 RDKit 解析:Chem.MolFromSmiles(smi)None 即无效,丢弃或记录;
  2. 拆分点号分隔的多片段,识别混合物/盐(见 329);
  3. 规范化:Chem.MolToSmiles(mol) 得到 canonical SMILES;
  4. 统一立体与电荷处理策略(保留还是清除);
  5. 去重前先标准化(见 328),避免「同分子不同写法」漏判。

常见坑与提示

清洗顺序很重要:先标准化再去重;规则要全数据集一致且可复现;对被丢弃的数据抽样人工核查,避免误删有效分子。

延伸资源

  • 概念见 031《SMILES》、046《分子标准化》;下一步 328。