AIDD·Atlas AI 制药学习地图
模块 05

AI 模型

经典论文精读、模型范式、方法论与陷阱

  1. 131 Chemprop / D-MPNN 论文精读:为什么强基线比新模型更重要 Chemprop 的 D-MPNN 是分子性质预测长期强基线。读这篇不是为了追新,而是学会怎样做可靠划分、特征拼接、集成和误差评估。
  2. 132 MoleculeNet 论文精读:分子机器学习基准的价值和过时之处 MoleculeNet 统一了数据集、划分和指标,是分子 ML 基准化的起点;但它不是排行榜真理,数据小、噪声、随机划分和任务老化都要警惕。
  3. 133 TDC 论文精读:把 AI 制药任务放回研发链条里 TDC 把治疗相关机器学习任务组织成数据、任务、划分和指标体系。它比 MoleculeNet 更贴近研发链条,但仍不能替代项目内验证。
  4. 134 DeepChem 平台解读:适合教学和原型,不等于生产级药企平台 DeepChem 是开源分子机器学习框架,适合学习、基准复现和原型开发。它的价值在统一接口,边界在工程维护、模型新旧和生产集成。
  5. 135 GuacaMol 论文精读:分子生成评测为什么容易被刷分 GuacaMol 提供分布学习和目标导向两类分子生成基准。它让模型可比,但代理目标很容易被优化器“钻空子”。
  6. 136 MOSES 论文精读:分布学习基准能回答什么,不能回答什么 MOSES 提供标准分子集合、指标和基线,适合评估生成模型是否学到类似训练集的化学分布,但不直接评估药物发现价值。
  7. 137 REINVENT 论文精读:强化学习生成分子的本质是奖励函数工程 REINVENT 用 RNN 生成 SMILES,再用强化学习把分布推向目标区域。真正难点不是会生成,而是奖励函数是否代表真实项目目标。
  8. 138 REINVENT4 文档精读:从论文算法到可配置生成平台 REINVENT4 是开源生成式分子设计框架,整合多种生成器、优化策略和 TOML/JSON 配置。它适合教学和项目原型,但打分组件仍决定上限。
  9. 139 GraphDTA 论文精读:DTA 预测为什么不能只换药物表示 GraphDTA 用分子图替代 SMILES 字符串来预测药物-靶点亲和力。它验证了图表示价值,但蛋白侧仍较粗糙,冷启动和数据偏差是大问题。
  10. 140 DeepDTA 论文精读:序列模型为什么成为 DTA 早期基线 DeepDTA 用 CNN 分别编码 SMILES 和蛋白序列,是 DTA 深度学习早期经典基线。它简单、可复现,但忽略分子图和蛋白结构。
  11. 141 MolTrans 论文精读:Transformer 做 DTI 时“可解释”要谨慎看 MolTrans 用子结构分解和 Transformer 建模药物-靶点相互作用。它比早期 CNN 更灵活,但注意力图不能直接等同真实结合机制。
  12. 142 Uni-Mol 论文精读:3D 预训练何时比 SMILES/GNN 更有意义 Uni-Mol 是 ICLR 2023 的 3D 分子表示学习框架。它强调原子坐标和几何预训练,适合依赖空间构象的任务,但输入构象质量很关键。
  13. 143 ESM-2 论文精读:蛋白语言模型为什么能预测结构,但不是 AlphaFold 替代品 ESM-2/ESMFold 证明蛋白语言模型能从单序列学到结构线索,速度快、适合大规模预测;但缺少 MSA 时精度和复杂相互作用仍有限。
  14. 144 ProtT5 论文精读:蛋白嵌入是特征工程,不是万能功能预测器 ProtT5 属于 ProtTrans 系列,用 T5 架构在蛋白序列上预训练。它适合生成通用蛋白嵌入,但下游任务仍依赖标签质量和验证设计。
  15. 145 ChemBERTa 论文精读:SMILES Transformer 的价值和局限 ChemBERTa 把 RoBERTa 式预训练用于 SMILES,展示分子语言模型潜力。但 SMILES 不是天然语言,强 GNN 和指纹基线仍必须比较。
  16. 146 MolBERT 论文精读:预训练任务比模型名字更重要 MolBERT 研究 SMILES 语言模型中预训练目标的作用。它提醒我们:化学相关辅助任务可能比单纯换 Transformer 架构更关键。
  17. 147 MolFormer 论文精读:十亿级 SMILES 预训练带来了什么 MolFormer 在大规模 SMILES 上训练高效 Transformer,展示分子语言模型的规模化路线。它有代表性,但仍受 SMILES 表示和评测划分限制。
  18. 148 MegaMolBART 模型解读:BioNeMo 里的生成模型应怎样定位 MegaMolBART 是 NVIDIA BioNeMo 生态中的 BART 式 SMILES autoencoder,主要用于分子表示、生成和 retrosynthesis 等任务。它是平台组件,不是独立药物设计答案。
  19. 149 MolMIM 论文精读:隐空间优化为什么不等于发现先导物 MolMIM 用 Mutual Information Machine 学习固定长度分子隐空间,再做属性约束优化。它适合受约束生成,但指标优化仍需化学和实验过滤。
  20. 150 ProteinMPNN 论文精读:逆折叠模型为什么改变蛋白设计流程 ProteinMPNN 给定蛋白骨架设计序列,是现代蛋白设计核心工具之一。它强在快速稳健的序列设计,但不负责生成骨架或验证功能。
  21. 151 RFdiffusion 论文精读:扩散模型怎样生成可设计蛋白骨架 RFdiffusion 把扩散生成用于蛋白骨架设计,可做 binder、对称体、motif scaffolding 等任务。它很强,但实验筛选仍是成败关键。
  22. 152 PandaOmics 平台论文精读:靶点发现证据链要怎么拆开看 PandaOmics 整合组学、文本、知识图谱等证据做靶点优先级排序。它能加速假设生成,但平台论文和公司案例要区分独立验证。
  23. 153 Chemistry42 JCIM 论文精读:商业生成平台的方法框架和审读边界 Chemistry42 是 Insilico 的商业分子生成平台,JCIM 论文披露其多生成器、多打分和过滤框架。读它要区分平台框架、案例结果和真实临床价值。
  24. 154 AI 靶点发现模型:从相关信号到因果假设的证据梯度 AI 靶点发现不是从数据里直接“算出靶点”,而是把遗传、组学、网络、文献和可成药性证据组合成可验证假设。
  25. 155 AI 活性预测模型:先定义决策,再选择分类、回归或排序 活性预测不是默认做回归。HTS 富集、先导优化和 SAR 解释需要不同任务形态、指标和划分方式。
  26. 156 AI ADMET 预测模型:多任务学习有用,但不能掩盖实验体系差异 ADMET 多任务模型可共享表征、提高效率,但每个终点的实验体系、物种、阈值和适用域都不同,不能只看一个综合分。
  27. 157 AI DTI 预测模型:序列、图、结构和知识图谱各解决不同问题 DTI/DTA 模型路线很多,但最重要的是任务定义和冷启动评估。序列模型、图模型、结构模型、知识图谱模型不能混为一谈。
  28. 158 AI 分子生成模型:VAE、GAN、RL、Diffusion 不是同一种工具 分子生成模型要按任务选型:分布学习、局部类似物优化、3D 构象生成、口袋条件生成和多目标优化对应不同范式。
  29. 159 图神经网络 GNN:分子图模型强在哪里,为什么仍会输给指纹基线 GNN 能直接从分子图学习表示,但小数据、标签噪声和划分不当时,ECFP+树模型仍可能更稳。不要把 GNN 当默认答案。
  30. 160 等变神经网络:3D 分子模型必须尊重旋转和平移对称性 等变网络把 SE(3)/E(3) 对称性写进模型,使坐标、力、构象和复合物任务更物理一致。它解决几何问题,但不自动解决数据问题。
  31. 161 Transformer 在分子中的应用:从 SMILES 到图、3D 和多模态 Transformer 可用于 SMILES、分子图、蛋白序列、3D 结构和文本融合。它擅长建模关系,但不应被简化成“注意力万能”。
  32. 162 扩散模型在药物设计中:从去噪生成到可验证假设 扩散模型适合生成 3D 构象、结合姿势、分子和蛋白骨架。它的优势是空间生成,风险是训练分布、采样成本和物理/合成验证不足。
  33. 163 大语言模型与药物发现:让 LLM 做编排,不要让它装成实验仪器 LLM 适合文献抽取、代码生成、工作流编排和报告解释;不适合直接预测 IC50、毒性或结合模式。它必须接工具、数据和验证。
  34. 164 多模态模型:结构、序列、文本和组学融合前先解决对齐问题 多模态模型能融合分子结构、蛋白序列、文本和组学,但真正难点是样本对齐、缺失模态、偏差来源和可解释性。
  35. 165 主动学习 Active Learning:少做实验的前提是知道该问哪个问题 主动学习通过模型挑选最值得实验的分子,但采集策略要服务项目决策:探索未知、优化活性、降低不确定性还是平衡 ADMET。
  36. 166 不确定性估计:模型什么时候应该说“我不知道” 药物发现最怕模型在分布外还很自信。不确定性估计用于主动学习、风险预警和决策分层,但必须校准。
  37. 167 模型外推性:药物发现真正考验的是新骨架和未来数据 随机测试集分数多半衡量内插,不代表新系列、新靶点或未来项目表现。外推评估要看 scaffold、time、cold split 和适用域。
  38. 168 可解释性 AI:解释要能帮助化学决策,而不是只画热图 可解释性在药物研发中用于纠错、沟通和生成 SAR 假设。解释图、注意力和特征归因都要验证忠实性和化学合理性。
  39. 169 Benchmark 陷阱:AI 制药论文高分是怎样被制造出来的 数据泄漏、近似重复、随机划分、弱基线、指标选择和 cherry-picking 都能制造虚假高性能。读论文先审评测设计。
  40. 170 AI 制药论文阅读框架:任务、数据、模型、验证、落地五问 读 AI 制药论文不要被模型名和高分带跑。用五问框架快速判断它解决什么、数据可靠吗、评测诚实吗、能否进入项目闭环。