AIDD·Atlas AI 制药学习地图
329

去盐、去重复、去异常结构:数据质量决定模型上限

去盐保留主结构、按 InChIKey 去重、过滤异常结构——数据质量直接决定模型上限。

清洗的「三件套」:去盐、去重、去异常。做不好,再强的模型也学不出好结果。

操作步骤

  1. 去盐:SaltRemover 或保留最大有机片段作为母体;
  2. 去重:按规范 SMILES 或 Chem.MolToInchiKey(mol) 判重;
  3. 合并重复活性:同分子多值取中位数/均值或按来源优先级;
  4. 过滤异常:无机物、价键错误、过大/过小、明显反应性结构;
  5. 记录每一步删了多少、为什么。

常见坑与提示

重复分子若分散到训练/测试两端会造成数据泄漏(见 332、169);过滤松紧要适度,并对边界样本人工抽查。

延伸资源

  • 概念见 047、048;下一步 330。