AIDD·Atlas AI 制药学习地图
模块 09

实战流程

从拉数据到生成分子的 DMTA 端到端工作流

  1. 326 从 ChEMBL 拉取靶点活性数据:AI 建模第一步 AI 活性建模的第一步:从 ChEMBL 按靶点拉出干净、口径一致的活性数据。
  2. 327 清洗 SMILES:从原始数据到可训练数据集 原始 SMILES 充满无效、混合物与不一致写法;清洗是从「能下载」到「能训练」的关键一步。
  3. 328 RDKit 标准化分子:建立可靠训练集 用 RDKit MolStandardize 统一互变异构、电荷与官能团画法,让相同分子有相同表示。
  4. 329 去盐、去重复、去异常结构:数据质量决定模型上限 去盐保留主结构、按 InChIKey 去重、过滤异常结构——数据质量直接决定模型上限。
  5. 330 计算 ECFP4 Fingerprint:传统特征仍然有价值 用 RDKit 算 ECFP4(半径 2)指纹作为传统 ML 特征——简单、快、常常是强基线。
  6. 331 用 Tanimoto 相似性做化合物聚类 用指纹 + Tanimoto 距离做 Butina 聚类,整理大库、去冗余、挑多样化子集。
  7. 332 用 Scaffold Split 评估模型真实外推能力 用骨架划分让测试集骨架不出现在训练集,逼近「面对新化学型」的真实场景,避免随机划分虚高。
  8. 333 训练 Chemprop 活性预测模型:从数据到结果 用 Chemprop 命令行从 CSV 训练 D-MPNN 活性模型,几步建立强基线。
  9. 334 训练 ADMET 多任务模型:一次预测多个性质 用多任务学习让多个 ADMET 终点共享表征、互相增益,一个模型预测多种性质。
  10. 335 用 TDC Benchmark 评估模型:让结果可比较 用 TDC Benchmark Group 的标准划分与指标评估模型,并对照公开排行榜,让结果真正可比。
  11. 336 用 AutoDock Vina 跑 Docking:基础虚拟筛选流程 走一遍 Vina 对接:准备受体/配体、定义对接盒子、运行、读结果,建立基础虚拟筛选流程。
  12. 337 用 GNINA 做 Rescoring:深度学习重打分实战 用 GNINA 的 CNN 对 Vina 采样的姿势重打分,常能改善姿势挑选与富集。
  13. 338 用 ProLIF 提取相互作用指纹:把 Pose 变成特征 用 ProLIF 把对接姿势/MD 轨迹的相互作用编码成指纹,用于比较姿势或作为下游特征。
  14. 339 用 PLIP 生成蛋白-配体相互作用报告 用 PLIP 一键生成相互作用报告,快速核对对接姿势是否形成了预期的关键相互作用。
  15. 340 用 PDBFixer 修复蛋白结构:Docking 前处理流程 用 PDBFixer 补全缺失原子/残基、加氢、处理非标准残基,为对接/模拟准备干净的受体。
  16. 341 用 Meeko 准备 Docking 文件:PDBQT 文件怎么生成 用 Meeko 把配体/受体转成 Vina 所需的 PDBQT,并正确处理可旋转键与大环。
  17. 342 用 OpenBabel 批量转格式:化学文件处理自动化 用 OpenBabel 命令行/Python 批量转换化学文件格式,打通工具间的格式不兼容。
  18. 343 用 AlphaFold Server 预测无结构靶点 当靶点没有实验结构时,用 AlphaFold Server 快速拿到预测结构作为基于结构设计的起点。
  19. 344 用 Boltz 或 Chai-1 预测蛋白-配体复合物 用开放的 Boltz / Chai-1 在本地预测蛋白-配体(及多组分)复合物结构,不受网页配额限制。
  20. 345 用 DiffDock 预测 Docking Pose:深度学习对接实战 用 DiffDock 做盲对接,快速生成候选姿势与置信度,适合没有明确口袋或要快速初筛时。
  21. 346 比较 DiffDock、Vina、GNINA:什么时候相信哪个结果 三种对接方法各有偏好;用「共识 + 相互作用核对 + 重对接验证」来判断该相信哪个结果。
  22. 347 用 REINVENT4 生成新分子:从规则到奖励函数 用 REINVENT4 配置生成模式与多目标奖励,从零生成满足约束的新分子。
  23. 348 在分子生成中加入 SA Score 约束 给生成加入合成可及性(SA Score)约束,避免模型产出活性好看却根本合不出的分子。
  24. 349 在分子生成中加入 QED 约束 给生成加入 QED 约束,引导产物更接近典型口服药的理化区间。
  25. 350 在分子生成中加入 ADMET 约束 把 ADMET 预测模型接入生成奖励,让产物在通透/代谢/hERG 等性质上更可成药。
  26. 351 在分子生成中加入 Docking Score 约束 把对接打分接入生成奖励,让产物倾向于能结合目标口袋——但要警惕对接打分被「刷分」。
  27. 352 Scaffold Hopping 实战:如何跳出原有母核 用形状/药效团相似或生成方法更换母核,在保住关键相互作用的前提下跳出原骨架。
  28. 353 R-group Replacement 实战:如何系统替换取代基 用 R 基团分解 + 等排替换,系统地替换取代基来优化活性/性质,并用 SAR 表读规律。
  29. 354 Linker Design 实战:连接子设计的计算方法 连接子设计(片段连接、PROTAC linker)要兼顾几何可达、柔性与性质,是计算辅助的重点。
  30. 355 建立 DMTA 闭环:自动生成项目进展报告 把设计-合成-测试-分析串成可迭代、可追溯的 DMTA 闭环,并自动汇总每轮进展。