AIDD·Atlas AI 制药学习地图
333

训练 Chemprop 活性预测模型:从数据到结果

用 Chemprop 命令行从 CSV 训练 D-MPNN 活性模型,几步建立强基线。

Chemprop(D-MPNN)是分子性质预测的强基线。本篇从一份 CSV 训练到出结果。

操作步骤

  1. 准备 CSV:一列 SMILES + 一列(或多列)标签;
  2. 安装:pip install chemprop
  3. 训练:chemprop train,指定数据、任务类型、划分(选 scaffold);
  4. 可加 RDKit 描述符特征提升表现;
  5. 预测:chemprop predict 对新分子批量打分。

常见坑与提示

用骨架划分做交叉验证才有参考价值;类不平衡时关注合适指标(见 155);先用 Chemprop 建基线,再判断更复杂模型是否值得。

延伸资源

  • 论文见 131;工具见 174;下一步 334、335。