AIDD·Atlas AI 制药学习地图
模块 07

数据资源

化合物/结构/活性数据库、Benchmark、组学数据

  1. 226 ChEMBL:药物活性数据的核心数据库 ChEMBL 是开源生物活性数据的核心库,汇集大量从文献整理的化合物-靶点活性,是 AI 活性建模的主要数据来源。
  2. 227 PubChem:化合物信息检索和批量下载指南 PubChem 是全球最大的免费化学信息库,覆盖化合物、物质与生物测定,适合检索与大规模下载。
  3. 228 BindingDB:蛋白-配体结合数据怎么用 BindingDB 专注实测的蛋白-配体结合亲和力,是 DTI/亲和力预测建模的重要数据来源。
  4. 229 DrugBank:药物信息数据库的价值与限制 DrugBank 整合了药物的靶点、机制、药代与相互作用等信息,适合查药物背景,但商用受许可限制。
  5. 230 ZINC:虚拟筛选化合物库入门 ZINC 提供可商业获取化合物的免费三维库,是虚拟筛选取样的标准来源之一。
  6. 231 Enamine REAL:超大可合成化合物空间怎么理解 Enamine REAL 是数十亿级的「按需合成」化合物空间,把虚拟筛选从「现货库」扩展到「可合成空间」。
  7. 232 Mcule:商业筛选库在虚拟筛选中的用途 Mcule 提供可快速采购的商业化合物库与在线工具,适合把虚拟筛选命中物快速落到可买分子。
  8. 233 eMolecules:采购导向化合物库怎么筛选 eMolecules 聚合多家供应商的可采购化合物,便于把候选分子落实到现实可得与可比价。
  9. 234 SureChEMBL:专利化学结构数据如何使用 SureChEMBL 从专利文献中自动抽取化学结构,是追踪竞品化学空间与专利态势的数据来源。
  10. 235 CAS Common Chemistry:免费化学物质信息资源 CAS Common Chemistry 提供一批常见物质的免费、权威基础信息,适合快速核对名称、CAS 号与结构。
  11. 236 PDB:蛋白结构数据库基础入门 PDB 是实验测定生物大分子三维结构的全球档案库,是基于结构的药物设计的基础数据。
  12. 237 RCSB PDB:结构检索、下载与质量判断 RCSB 是 PDB 的主要门户,提供强大的结构检索、下载与质量指标,是判断一个结构能不能用的关键。
  13. 238 PDBbind:结合亲和力数据集怎么用于 AI 训练 PDBbind 把 PDB 中的蛋白-配体复合物配上实测结合亲和力,是打分函数与亲和力模型的常用训练/评测集。
  14. 239 Binding MOAD:蛋白-配体复合物数据库介绍 Binding MOAD 收录高质量的蛋白-配体复合物及部分亲和力数据,是结构based建模的优质来源。
  15. 240 CrossDocked2020:深度学习 Docking 常用数据集 CrossDocked2020 提供大量交叉对接的姿势,是训练深度学习对接与结构based生成模型的常用数据集。
  16. 241 DUD-E:虚拟筛选 Benchmark 的优势和问题 DUD-E 用活性分子 + 物理性质匹配的诱饵评测虚拟筛选,是经典基准,但存在被诟病的偏倚。
  17. 242 LIT-PCBA:更接近真实筛选场景的 Benchmark LIT-PCBA 从真实高通量筛选实验构建,活性/非活性更真实、更不平衡,弥补 DUD-E 的偏倚问题。
  18. 243 MoleculeNet:分子性质预测标准数据集 MoleculeNet 汇集物理化学、生物活性与毒性等标准数据集与划分,是分子性质预测建模的常用数据来源。
  19. 244 TDC ADMET Group:ADMET 预测任务集合 TDC ADMET Group 把吸收、分布、代谢、排泄、毒性的多个终点打包成标准任务与排行榜,是 ADMET 建模的首选数据。
  20. 245 TDC HTS Group:高通量筛选数据建模任务 TDC HTS Group 提供高通量筛选活性建模任务,适合练习大规模、不平衡活性预测。
  21. 246 TDC DTI Group:药物-靶点相互作用任务 TDC DTI Group 提供标准的药物-靶点亲和力/相互作用任务与划分,是 DTI 建模与冷启动评估的基准。
  22. 247 TDC Trial Group:临床试验相关 AI 任务 TDC Trial Group 提供临床试验结果预测等任务,把 AI 延伸到研发后端的决策问题。
  23. 248 TDC Genomics Group:基因组任务与药物研发连接 TDC Genomics Group 提供基因组相关任务(如 CRISPR 结果预测),把组学与药物研发连接起来。
  24. 249 Open Targets Platform:靶点发现证据链怎么查 Open Targets 整合多源证据为「靶点-疾病」关联打分,是查靶点证据链、做靶点优先级的权威平台。
  25. 250 Open Targets Genetics:遗传学证据如何支持靶点选择 Open Targets Genetics 聚焦把 GWAS 等遗传关联映射到具体基因/靶点,提供较强的因果性证据。
  26. 251 DisGeNET:疾病-基因关联数据库使用指南 DisGeNET 汇总疾病-基因关联,便于围绕某疾病快速梳理候选基因/靶点。
  27. 252 GWAS Catalog:遗传关联研究结果如何转化为靶点证据 GWAS Catalog 收录已发表的全基因组关联结果,是把遗传关联转化为靶点证据的原始来源。
  28. 253 ClinVar:临床变异数据库在药物研发中的价值 ClinVar 收录变异与临床意义的关联,帮助理解致病变异、支持靶点与适应症判断。
  29. 254 OMIM:遗传病知识库如何辅助靶点研究 OMIM 系统整理人类基因与遗传病的关系,是理解「基因-疾病」机制、寻找因果靶点的经典知识库。
  30. 255 UniProt:蛋白信息检索的基础数据库 UniProt 是蛋白序列与功能注释的权威基础库,几乎所有蛋白相关分析都从它取序列与注释。
  31. 256 Pfam:蛋白结构域数据库怎么用 Pfam 用隐马尔可夫模型定义蛋白家族与结构域,帮助识别蛋白的功能模块。
  32. 257 InterPro:蛋白功能注释整合平台 InterPro 整合 Pfam 等多个成员库,给蛋白统一的家族、结构域与功能注释,是功能注释的一站式入口。
  33. 258 STRING:蛋白互作网络如何用于靶点分析 STRING 提供已知与预测的蛋白-蛋白互作网络,帮助把靶点放进相互作用与通路的语境中分析。
  34. 259 BioGRID:实验支持的互作数据资源 BioGRID 聚焦有实验支持的蛋白/基因相互作用,是比纯预测网络更可靠的互作证据来源。
  35. 260 Reactome:通路数据库在机制研究中的用途 Reactome 提供人工审编的生物通路,帮助理解靶点在信号/代谢通路中的位置与机制。
  36. 261 KEGG:通路、代谢与药物信息整合资源 KEGG 整合通路、代谢、疾病与药物信息,是机制与代谢研究的经典综合资源。
  37. 262 Gene Ontology:GO 注释如何解释基因功能 Gene Ontology 用标准化术语描述基因的功能、过程与定位,是功能富集分析的基础。
  38. 263 MSigDB:基因集分析与药物机制研究 MSigDB 提供大量精选基因集,配合 GSEA 用于解读表达变化、推断药物机制与通路活性。
  39. 264 DepMap:癌症依赖性数据如何寻找靶点 DepMap 用大规模 CRISPR/RNAi 敲除筛选揭示癌细胞系的基因依赖,是发现癌症靶点的关键资源。
  40. 265 CCLE:癌细胞系组学数据资源 CCLE 提供数百癌细胞系的多组学数据,是解释依赖性、药敏与建立细胞系模型的基础。
  41. 266 GDSC:药敏数据如何支持适应症选择 GDSC 提供细胞系对大量药物的敏感性数据,帮助把药物与基因组特征关联、支持适应症与生物标志物。
  42. 267 PRISM Repurposing:大规模药物重定位数据集 PRISM 用条形码混合细胞系并行测大量药物的活性,是大规模药物重定位与机制研究的数据来源。
  43. 268 LINCS L1000:转录组扰动数据如何用于药物发现 LINCS L1000 用低成本测一千个标志基因,构建海量药物/基因扰动的转录组特征,用于连通性与机制分析。
  44. 269 cBioPortal:肿瘤基因组数据查询指南 cBioPortal 提供友好的界面查询大量癌症基因组数据集,便于快速探索基因突变、表达与临床关联。
  45. 270 TCGA:癌症多组学数据在靶点发现中的用途 TCGA 提供数十种癌症的大规模多组学与临床数据,是癌症靶点发现与生物标志物研究的基石数据集。