清洗的「三件套」:去盐、去重、去异常。做不好,再强的模型也学不出好结果。
操作步骤
- 去盐:
SaltRemover或保留最大有机片段作为母体; - 去重:按规范 SMILES 或
Chem.MolToInchiKey(mol)判重; - 合并重复活性:同分子多值取中位数/均值或按来源优先级;
- 过滤异常:无机物、价键错误、过大/过小、明显反应性结构;
- 记录每一步删了多少、为什么。
常见坑与提示
重复分子若分散到训练/测试两端会造成数据泄漏(见 332、169);过滤松紧要适度,并对边界样本人工抽查。
延伸资源
- 概念见 047、048;下一步 330。