AIDD·Atlas AI 制药学习地图
326

从 ChEMBL 拉取靶点活性数据:AI 建模第一步

AI 活性建模的第一步:从 ChEMBL 按靶点拉出干净、口径一致的活性数据。

要给某靶点训练活性模型,先得有数据。ChEMBL 是最常用的来源。本篇走一遍「按靶点拉活性数据」的标准流程。

操作步骤

  1. 由 UniProt 号找到对应的 ChEMBL target_chembl_id
  2. chembl_webresource_client(或 SQL/批量下载)按该靶点查 activities;
  3. 筛选 standard_type(如 IC50/Ki/EC50)与 standard_relation = '=',去掉「>/<」的删失值;
  4. 优先取 pchembl_value(已转 -log 的活性),统一单位与口径;
  5. 记录 assay 来源与置信度,导出为 CSV(SMILES + 活性)。

常见坑与提示

不同 assay 的数值不可直接混用;删失值(>/<)要么丢弃要么单独处理;同一分子多条活性需按规则合并(中位数/优先来源)。务必保留可复现的查询脚本。

延伸资源

  • 数据库见 226《ChEMBL》;下一步 327《清洗 SMILES》。