模块 09
实战流程
从拉数据到生成分子的 DMTA 端到端工作流
- 326 从 ChEMBL 拉取靶点活性数据:AI 建模第一步 AI 活性建模的第一步:从 ChEMBL 按靶点拉出干净、口径一致的活性数据。 →
- 327 清洗 SMILES:从原始数据到可训练数据集 原始 SMILES 充满无效、混合物与不一致写法;清洗是从「能下载」到「能训练」的关键一步。 →
- 328 RDKit 标准化分子:建立可靠训练集 用 RDKit MolStandardize 统一互变异构、电荷与官能团画法,让相同分子有相同表示。 →
- 329 去盐、去重复、去异常结构:数据质量决定模型上限 去盐保留主结构、按 InChIKey 去重、过滤异常结构——数据质量直接决定模型上限。 →
- 330 计算 ECFP4 Fingerprint:传统特征仍然有价值 用 RDKit 算 ECFP4(半径 2)指纹作为传统 ML 特征——简单、快、常常是强基线。 →
- 331 用 Tanimoto 相似性做化合物聚类 用指纹 + Tanimoto 距离做 Butina 聚类,整理大库、去冗余、挑多样化子集。 →
- 332 用 Scaffold Split 评估模型真实外推能力 用骨架划分让测试集骨架不出现在训练集,逼近「面对新化学型」的真实场景,避免随机划分虚高。 →
- 333 训练 Chemprop 活性预测模型:从数据到结果 用 Chemprop 命令行从 CSV 训练 D-MPNN 活性模型,几步建立强基线。 →
- 334 训练 ADMET 多任务模型:一次预测多个性质 用多任务学习让多个 ADMET 终点共享表征、互相增益,一个模型预测多种性质。 →
- 335 用 TDC Benchmark 评估模型:让结果可比较 用 TDC Benchmark Group 的标准划分与指标评估模型,并对照公开排行榜,让结果真正可比。 →
- 336 用 AutoDock Vina 跑 Docking:基础虚拟筛选流程 走一遍 Vina 对接:准备受体/配体、定义对接盒子、运行、读结果,建立基础虚拟筛选流程。 →
- 337 用 GNINA 做 Rescoring:深度学习重打分实战 用 GNINA 的 CNN 对 Vina 采样的姿势重打分,常能改善姿势挑选与富集。 →
- 338 用 ProLIF 提取相互作用指纹:把 Pose 变成特征 用 ProLIF 把对接姿势/MD 轨迹的相互作用编码成指纹,用于比较姿势或作为下游特征。 →
- 339 用 PLIP 生成蛋白-配体相互作用报告 用 PLIP 一键生成相互作用报告,快速核对对接姿势是否形成了预期的关键相互作用。 →
- 340 用 PDBFixer 修复蛋白结构:Docking 前处理流程 用 PDBFixer 补全缺失原子/残基、加氢、处理非标准残基,为对接/模拟准备干净的受体。 →
- 341 用 Meeko 准备 Docking 文件:PDBQT 文件怎么生成 用 Meeko 把配体/受体转成 Vina 所需的 PDBQT,并正确处理可旋转键与大环。 →
- 342 用 OpenBabel 批量转格式:化学文件处理自动化 用 OpenBabel 命令行/Python 批量转换化学文件格式,打通工具间的格式不兼容。 →
- 343 用 AlphaFold Server 预测无结构靶点 当靶点没有实验结构时,用 AlphaFold Server 快速拿到预测结构作为基于结构设计的起点。 →
- 344 用 Boltz 或 Chai-1 预测蛋白-配体复合物 用开放的 Boltz / Chai-1 在本地预测蛋白-配体(及多组分)复合物结构,不受网页配额限制。 →
- 345 用 DiffDock 预测 Docking Pose:深度学习对接实战 用 DiffDock 做盲对接,快速生成候选姿势与置信度,适合没有明确口袋或要快速初筛时。 →
- 346 比较 DiffDock、Vina、GNINA:什么时候相信哪个结果 三种对接方法各有偏好;用「共识 + 相互作用核对 + 重对接验证」来判断该相信哪个结果。 →
- 347 用 REINVENT4 生成新分子:从规则到奖励函数 用 REINVENT4 配置生成模式与多目标奖励,从零生成满足约束的新分子。 →
- 348 在分子生成中加入 SA Score 约束 给生成加入合成可及性(SA Score)约束,避免模型产出活性好看却根本合不出的分子。 →
- 349 在分子生成中加入 QED 约束 给生成加入 QED 约束,引导产物更接近典型口服药的理化区间。 →
- 350 在分子生成中加入 ADMET 约束 把 ADMET 预测模型接入生成奖励,让产物在通透/代谢/hERG 等性质上更可成药。 →
- 351 在分子生成中加入 Docking Score 约束 把对接打分接入生成奖励,让产物倾向于能结合目标口袋——但要警惕对接打分被「刷分」。 →
- 352 Scaffold Hopping 实战:如何跳出原有母核 用形状/药效团相似或生成方法更换母核,在保住关键相互作用的前提下跳出原骨架。 →
- 353 R-group Replacement 实战:如何系统替换取代基 用 R 基团分解 + 等排替换,系统地替换取代基来优化活性/性质,并用 SAR 表读规律。 →
- 354 Linker Design 实战:连接子设计的计算方法 连接子设计(片段连接、PROTAC linker)要兼顾几何可达、柔性与性质,是计算辅助的重点。 →
- 355 建立 DMTA 闭环:自动生成项目进展报告 把设计-合成-测试-分析串成可迭代、可追溯的 DMTA 闭环,并自动汇总每轮进展。 →