数据资源 – AIDD·Atlas

226 ChEMBL：药物活性数据的核心数据库 ChEMBL 是开源生物活性数据的核心库，汇集大量从文献整理的化合物-靶点活性，是 AI 活性建模的主要数据来源。 →

227 PubChem：化合物信息检索和批量下载指南 PubChem 是全球最大的免费化学信息库，覆盖化合物、物质与生物测定，适合检索与大规模下载。 →

228 BindingDB：蛋白-配体结合数据怎么用 BindingDB 专注实测的蛋白-配体结合亲和力，是 DTI/亲和力预测建模的重要数据来源。 →

229 DrugBank：药物信息数据库的价值与限制 DrugBank 整合了药物的靶点、机制、药代与相互作用等信息，适合查药物背景，但商用受许可限制。 →

230 ZINC：虚拟筛选化合物库入门 ZINC 提供可商业获取化合物的免费三维库，是虚拟筛选取样的标准来源之一。 →

231 Enamine REAL：超大可合成化合物空间怎么理解 Enamine REAL 是数十亿级的「按需合成」化合物空间，把虚拟筛选从「现货库」扩展到「可合成空间」。 →

232 Mcule：商业筛选库在虚拟筛选中的用途 Mcule 提供可快速采购的商业化合物库与在线工具，适合把虚拟筛选命中物快速落到可买分子。 →

233 eMolecules：采购导向化合物库怎么筛选 eMolecules 聚合多家供应商的可采购化合物，便于把候选分子落实到现实可得与可比价。 →

234 SureChEMBL：专利化学结构数据如何使用 SureChEMBL 从专利文献中自动抽取化学结构，是追踪竞品化学空间与专利态势的数据来源。 →

235 CAS Common Chemistry：免费化学物质信息资源 CAS Common Chemistry 提供一批常见物质的免费、权威基础信息，适合快速核对名称、CAS 号与结构。 →

236 PDB：蛋白结构数据库基础入门 PDB 是实验测定生物大分子三维结构的全球档案库，是基于结构的药物设计的基础数据。 →

237 RCSB PDB：结构检索、下载与质量判断 RCSB 是 PDB 的主要门户，提供强大的结构检索、下载与质量指标，是判断一个结构能不能用的关键。 →

238 PDBbind：结合亲和力数据集怎么用于 AI 训练 PDBbind 把 PDB 中的蛋白-配体复合物配上实测结合亲和力，是打分函数与亲和力模型的常用训练/评测集。 →

239 Binding MOAD：蛋白-配体复合物数据库介绍 Binding MOAD 收录高质量的蛋白-配体复合物及部分亲和力数据，是结构based建模的优质来源。 →

240 CrossDocked2020：深度学习 Docking 常用数据集 CrossDocked2020 提供大量交叉对接的姿势，是训练深度学习对接与结构based生成模型的常用数据集。 →

241 DUD-E：虚拟筛选 Benchmark 的优势和问题 DUD-E 用活性分子 + 物理性质匹配的诱饵评测虚拟筛选，是经典基准，但存在被诟病的偏倚。 →

242 LIT-PCBA：更接近真实筛选场景的 Benchmark LIT-PCBA 从真实高通量筛选实验构建，活性/非活性更真实、更不平衡，弥补 DUD-E 的偏倚问题。 →

243 MoleculeNet：分子性质预测标准数据集 MoleculeNet 汇集物理化学、生物活性与毒性等标准数据集与划分，是分子性质预测建模的常用数据来源。 →

244 TDC ADMET Group：ADMET 预测任务集合 TDC ADMET Group 把吸收、分布、代谢、排泄、毒性的多个终点打包成标准任务与排行榜，是 ADMET 建模的首选数据。 →

245 TDC HTS Group：高通量筛选数据建模任务 TDC HTS Group 提供高通量筛选活性建模任务，适合练习大规模、不平衡活性预测。 →

246 TDC DTI Group：药物-靶点相互作用任务 TDC DTI Group 提供标准的药物-靶点亲和力/相互作用任务与划分，是 DTI 建模与冷启动评估的基准。 →

247 TDC Trial Group：临床试验相关 AI 任务 TDC Trial Group 提供临床试验结果预测等任务，把 AI 延伸到研发后端的决策问题。 →

248 TDC Genomics Group：基因组任务与药物研发连接 TDC Genomics Group 提供基因组相关任务（如 CRISPR 结果预测），把组学与药物研发连接起来。 →

249 Open Targets Platform：靶点发现证据链怎么查 Open Targets 整合多源证据为「靶点-疾病」关联打分，是查靶点证据链、做靶点优先级的权威平台。 →

250 Open Targets Genetics：遗传学证据如何支持靶点选择 Open Targets Genetics 聚焦把 GWAS 等遗传关联映射到具体基因/靶点，提供较强的因果性证据。 →

251 DisGeNET：疾病-基因关联数据库使用指南 DisGeNET 汇总疾病-基因关联，便于围绕某疾病快速梳理候选基因/靶点。 →

252 GWAS Catalog：遗传关联研究结果如何转化为靶点证据 GWAS Catalog 收录已发表的全基因组关联结果，是把遗传关联转化为靶点证据的原始来源。 →

253 ClinVar：临床变异数据库在药物研发中的价值 ClinVar 收录变异与临床意义的关联，帮助理解致病变异、支持靶点与适应症判断。 →

254 OMIM：遗传病知识库如何辅助靶点研究 OMIM 系统整理人类基因与遗传病的关系，是理解「基因-疾病」机制、寻找因果靶点的经典知识库。 →

255 UniProt：蛋白信息检索的基础数据库 UniProt 是蛋白序列与功能注释的权威基础库，几乎所有蛋白相关分析都从它取序列与注释。 →

256 Pfam：蛋白结构域数据库怎么用 Pfam 用隐马尔可夫模型定义蛋白家族与结构域，帮助识别蛋白的功能模块。 →

257 InterPro：蛋白功能注释整合平台 InterPro 整合 Pfam 等多个成员库，给蛋白统一的家族、结构域与功能注释，是功能注释的一站式入口。 →

258 STRING：蛋白互作网络如何用于靶点分析 STRING 提供已知与预测的蛋白-蛋白互作网络，帮助把靶点放进相互作用与通路的语境中分析。 →

259 BioGRID：实验支持的互作数据资源 BioGRID 聚焦有实验支持的蛋白/基因相互作用，是比纯预测网络更可靠的互作证据来源。 →

260 Reactome：通路数据库在机制研究中的用途 Reactome 提供人工审编的生物通路，帮助理解靶点在信号/代谢通路中的位置与机制。 →

261 KEGG：通路、代谢与药物信息整合资源 KEGG 整合通路、代谢、疾病与药物信息，是机制与代谢研究的经典综合资源。 →

262 Gene Ontology：GO 注释如何解释基因功能 Gene Ontology 用标准化术语描述基因的功能、过程与定位，是功能富集分析的基础。 →

263 MSigDB：基因集分析与药物机制研究 MSigDB 提供大量精选基因集，配合 GSEA 用于解读表达变化、推断药物机制与通路活性。 →

264 DepMap：癌症依赖性数据如何寻找靶点 DepMap 用大规模 CRISPR/RNAi 敲除筛选揭示癌细胞系的基因依赖，是发现癌症靶点的关键资源。 →

265 CCLE：癌细胞系组学数据资源 CCLE 提供数百癌细胞系的多组学数据，是解释依赖性、药敏与建立细胞系模型的基础。 →

266 GDSC：药敏数据如何支持适应症选择 GDSC 提供细胞系对大量药物的敏感性数据，帮助把药物与基因组特征关联、支持适应症与生物标志物。 →

267 PRISM Repurposing：大规模药物重定位数据集 PRISM 用条形码混合细胞系并行测大量药物的活性，是大规模药物重定位与机制研究的数据来源。 →

268 LINCS L1000：转录组扰动数据如何用于药物发现 LINCS L1000 用低成本测一千个标志基因，构建海量药物/基因扰动的转录组特征，用于连通性与机制分析。 →

269 cBioPortal：肿瘤基因组数据查询指南 cBioPortal 提供友好的界面查询大量癌症基因组数据集，便于快速探索基因突变、表达与临床关联。 →

270 TCGA：癌症多组学数据在靶点发现中的用途 TCGA 提供数十种癌症的大规模多组学与临床数据，是癌症靶点发现与生物标志物研究的基石数据集。 →