要给某靶点训练活性模型,先得有数据。ChEMBL 是最常用的来源。本篇走一遍「按靶点拉活性数据」的标准流程。
操作步骤
- 由 UniProt 号找到对应的 ChEMBL
target_chembl_id; - 用
chembl_webresource_client(或 SQL/批量下载)按该靶点查 activities; - 筛选
standard_type(如 IC50/Ki/EC50)与standard_relation = '=',去掉「>/<」的删失值; - 优先取
pchembl_value(已转 -log 的活性),统一单位与口径; - 记录 assay 来源与置信度,导出为 CSV(SMILES + 活性)。
常见坑与提示
不同 assay 的数值不可直接混用;删失值(>/<)要么丢弃要么单独处理;同一分子多条活性需按规则合并(中位数/优先来源)。务必保留可复现的查询脚本。
延伸资源
- 数据库见 226《ChEMBL》;下一步 327《清洗 SMILES》。