实战流程

模块 09

从拉数据到生成分子的 DMTA 端到端工作流

326 从 ChEMBL 拉取靶点活性数据：AI 建模第一步 AI 活性建模的第一步：从 ChEMBL 按靶点拉出干净、口径一致的活性数据。 →
327 清洗 SMILES：从原始数据到可训练数据集原始 SMILES 充满无效、混合物与不一致写法；清洗是从「能下载」到「能训练」的关键一步。 →
328 RDKit 标准化分子：建立可靠训练集用 RDKit MolStandardize 统一互变异构、电荷与官能团画法，让相同分子有相同表示。 →
329 去盐、去重复、去异常结构：数据质量决定模型上限去盐保留主结构、按 InChIKey 去重、过滤异常结构——数据质量直接决定模型上限。 →
330 计算 ECFP4 Fingerprint：传统特征仍然有价值用 RDKit 算 ECFP4（半径 2）指纹作为传统 ML 特征——简单、快、常常是强基线。 →
331 用 Tanimoto 相似性做化合物聚类用指纹 + Tanimoto 距离做 Butina 聚类，整理大库、去冗余、挑多样化子集。 →
332 用 Scaffold Split 评估模型真实外推能力用骨架划分让测试集骨架不出现在训练集，逼近「面对新化学型」的真实场景，避免随机划分虚高。 →
333 训练 Chemprop 活性预测模型：从数据到结果用 Chemprop 命令行从 CSV 训练 D-MPNN 活性模型，几步建立强基线。 →
334 训练 ADMET 多任务模型：一次预测多个性质用多任务学习让多个 ADMET 终点共享表征、互相增益，一个模型预测多种性质。 →
335 用 TDC Benchmark 评估模型：让结果可比较用 TDC Benchmark Group 的标准划分与指标评估模型，并对照公开排行榜，让结果真正可比。 →
336 用 AutoDock Vina 跑 Docking：基础虚拟筛选流程走一遍 Vina 对接：准备受体/配体、定义对接盒子、运行、读结果，建立基础虚拟筛选流程。 →
337 用 GNINA 做 Rescoring：深度学习重打分实战用 GNINA 的 CNN 对 Vina 采样的姿势重打分，常能改善姿势挑选与富集。 →
338 用 ProLIF 提取相互作用指纹：把 Pose 变成特征用 ProLIF 把对接姿势/MD 轨迹的相互作用编码成指纹，用于比较姿势或作为下游特征。 →
339 用 PLIP 生成蛋白-配体相互作用报告用 PLIP 一键生成相互作用报告，快速核对对接姿势是否形成了预期的关键相互作用。 →
340 用 PDBFixer 修复蛋白结构：Docking 前处理流程用 PDBFixer 补全缺失原子/残基、加氢、处理非标准残基，为对接/模拟准备干净的受体。 →
341 用 Meeko 准备 Docking 文件：PDBQT 文件怎么生成用 Meeko 把配体/受体转成 Vina 所需的 PDBQT，并正确处理可旋转键与大环。 →
342 用 OpenBabel 批量转格式：化学文件处理自动化用 OpenBabel 命令行/Python 批量转换化学文件格式，打通工具间的格式不兼容。 →
343 用 AlphaFold Server 预测无结构靶点当靶点没有实验结构时，用 AlphaFold Server 快速拿到预测结构作为基于结构设计的起点。 →
344 用 Boltz 或 Chai-1 预测蛋白-配体复合物用开放的 Boltz / Chai-1 在本地预测蛋白-配体（及多组分）复合物结构，不受网页配额限制。 →
345 用 DiffDock 预测 Docking Pose：深度学习对接实战用 DiffDock 做盲对接，快速生成候选姿势与置信度，适合没有明确口袋或要快速初筛时。 →
346 比较 DiffDock、Vina、GNINA：什么时候相信哪个结果三种对接方法各有偏好；用「共识 + 相互作用核对 + 重对接验证」来判断该相信哪个结果。 →
347 用 REINVENT4 生成新分子：从规则到奖励函数用 REINVENT4 配置生成模式与多目标奖励，从零生成满足约束的新分子。 →
348 在分子生成中加入 SA Score 约束给生成加入合成可及性（SA Score）约束，避免模型产出活性好看却根本合不出的分子。 →
349 在分子生成中加入 QED 约束给生成加入 QED 约束，引导产物更接近典型口服药的理化区间。 →
350 在分子生成中加入 ADMET 约束把 ADMET 预测模型接入生成奖励，让产物在通透/代谢/hERG 等性质上更可成药。 →
351 在分子生成中加入 Docking Score 约束把对接打分接入生成奖励，让产物倾向于能结合目标口袋——但要警惕对接打分被「刷分」。 →
352 Scaffold Hopping 实战：如何跳出原有母核用形状/药效团相似或生成方法更换母核，在保住关键相互作用的前提下跳出原骨架。 →
353 R-group Replacement 实战：如何系统替换取代基用 R 基团分解 + 等排替换，系统地替换取代基来优化活性/性质，并用 SAR 表读规律。 →
354 Linker Design 实战：连接子设计的计算方法连接子设计（片段连接、PROTAC linker）要兼顾几何可达、柔性与性质，是计算辅助的重点。 →
355 建立 DMTA 闭环：自动生成项目进展报告把设计-合成-测试-分析串成可迭代、可追溯的 DMTA 闭环，并自动汇总每轮进展。 →

全部模块

01 入门 · 学习地图 02 分子表示 03 成药性 04 结构与模拟 05 AI 模型 06 开源工具 07 数据资源 08 平台与公司 09 实战流程 10 新药模态 11 合成与工艺 12 决策与监管