AI 模型 – AIDD·Atlas

131 Chemprop / D-MPNN 论文精读：为什么强基线比新模型更重要 Chemprop 的 D-MPNN 是分子性质预测长期强基线。读这篇不是为了追新，而是学会怎样做可靠划分、特征拼接、集成和误差评估。 →

132 MoleculeNet 论文精读：分子机器学习基准的价值和过时之处 MoleculeNet 统一了数据集、划分和指标，是分子 ML 基准化的起点；但它不是排行榜真理，数据小、噪声、随机划分和任务老化都要警惕。 →

133 TDC 论文精读：把 AI 制药任务放回研发链条里 TDC 把治疗相关机器学习任务组织成数据、任务、划分和指标体系。它比 MoleculeNet 更贴近研发链条，但仍不能替代项目内验证。 →

134 DeepChem 平台解读：适合教学和原型，不等于生产级药企平台 DeepChem 是开源分子机器学习框架，适合学习、基准复现和原型开发。它的价值在统一接口，边界在工程维护、模型新旧和生产集成。 →

135 GuacaMol 论文精读：分子生成评测为什么容易被刷分 GuacaMol 提供分布学习和目标导向两类分子生成基准。它让模型可比，但代理目标很容易被优化器“钻空子”。 →

136 MOSES 论文精读：分布学习基准能回答什么，不能回答什么 MOSES 提供标准分子集合、指标和基线，适合评估生成模型是否学到类似训练集的化学分布，但不直接评估药物发现价值。 →

137 REINVENT 论文精读：强化学习生成分子的本质是奖励函数工程 REINVENT 用 RNN 生成 SMILES，再用强化学习把分布推向目标区域。真正难点不是会生成，而是奖励函数是否代表真实项目目标。 →

138 REINVENT4 文档精读：从论文算法到可配置生成平台 REINVENT4 是开源生成式分子设计框架，整合多种生成器、优化策略和 TOML/JSON 配置。它适合教学和项目原型，但打分组件仍决定上限。 →

139 GraphDTA 论文精读：DTA 预测为什么不能只换药物表示 GraphDTA 用分子图替代 SMILES 字符串来预测药物-靶点亲和力。它验证了图表示价值，但蛋白侧仍较粗糙，冷启动和数据偏差是大问题。 →

140 DeepDTA 论文精读：序列模型为什么成为 DTA 早期基线 DeepDTA 用 CNN 分别编码 SMILES 和蛋白序列，是 DTA 深度学习早期经典基线。它简单、可复现，但忽略分子图和蛋白结构。 →

141 MolTrans 论文精读：Transformer 做 DTI 时“可解释”要谨慎看 MolTrans 用子结构分解和 Transformer 建模药物-靶点相互作用。它比早期 CNN 更灵活，但注意力图不能直接等同真实结合机制。 →

142 Uni-Mol 论文精读：3D 预训练何时比 SMILES/GNN 更有意义 Uni-Mol 是 ICLR 2023 的 3D 分子表示学习框架。它强调原子坐标和几何预训练，适合依赖空间构象的任务，但输入构象质量很关键。 →

143 ESM-2 论文精读：蛋白语言模型为什么能预测结构，但不是 AlphaFold 替代品 ESM-2/ESMFold 证明蛋白语言模型能从单序列学到结构线索，速度快、适合大规模预测；但缺少 MSA 时精度和复杂相互作用仍有限。 →

144 ProtT5 论文精读：蛋白嵌入是特征工程，不是万能功能预测器 ProtT5 属于 ProtTrans 系列，用 T5 架构在蛋白序列上预训练。它适合生成通用蛋白嵌入，但下游任务仍依赖标签质量和验证设计。 →

145 ChemBERTa 论文精读：SMILES Transformer 的价值和局限 ChemBERTa 把 RoBERTa 式预训练用于 SMILES，展示分子语言模型潜力。但 SMILES 不是天然语言，强 GNN 和指纹基线仍必须比较。 →

146 MolBERT 论文精读：预训练任务比模型名字更重要 MolBERT 研究 SMILES 语言模型中预训练目标的作用。它提醒我们：化学相关辅助任务可能比单纯换 Transformer 架构更关键。 →

147 MolFormer 论文精读：十亿级 SMILES 预训练带来了什么 MolFormer 在大规模 SMILES 上训练高效 Transformer，展示分子语言模型的规模化路线。它有代表性，但仍受 SMILES 表示和评测划分限制。 →

148 MegaMolBART 模型解读：BioNeMo 里的生成模型应怎样定位 MegaMolBART 是 NVIDIA BioNeMo 生态中的 BART 式 SMILES autoencoder，主要用于分子表示、生成和 retrosynthesis 等任务。它是平台组件，不是独立药物设计答案。 →

149 MolMIM 论文精读：隐空间优化为什么不等于发现先导物 MolMIM 用 Mutual Information Machine 学习固定长度分子隐空间，再做属性约束优化。它适合受约束生成，但指标优化仍需化学和实验过滤。 →

150 ProteinMPNN 论文精读：逆折叠模型为什么改变蛋白设计流程 ProteinMPNN 给定蛋白骨架设计序列，是现代蛋白设计核心工具之一。它强在快速稳健的序列设计，但不负责生成骨架或验证功能。 →

151 RFdiffusion 论文精读：扩散模型怎样生成可设计蛋白骨架 RFdiffusion 把扩散生成用于蛋白骨架设计，可做 binder、对称体、motif scaffolding 等任务。它很强，但实验筛选仍是成败关键。 →

152 PandaOmics 平台论文精读：靶点发现证据链要怎么拆开看 PandaOmics 整合组学、文本、知识图谱等证据做靶点优先级排序。它能加速假设生成，但平台论文和公司案例要区分独立验证。 →

153 Chemistry42 JCIM 论文精读：商业生成平台的方法框架和审读边界 Chemistry42 是 Insilico 的商业分子生成平台，JCIM 论文披露其多生成器、多打分和过滤框架。读它要区分平台框架、案例结果和真实临床价值。 →

154 AI 靶点发现模型：从相关信号到因果假设的证据梯度 AI 靶点发现不是从数据里直接“算出靶点”，而是把遗传、组学、网络、文献和可成药性证据组合成可验证假设。 →

155 AI 活性预测模型：先定义决策，再选择分类、回归或排序活性预测不是默认做回归。HTS 富集、先导优化和 SAR 解释需要不同任务形态、指标和划分方式。 →

156 AI ADMET 预测模型：多任务学习有用，但不能掩盖实验体系差异 ADMET 多任务模型可共享表征、提高效率，但每个终点的实验体系、物种、阈值和适用域都不同，不能只看一个综合分。 →

157 AI DTI 预测模型：序列、图、结构和知识图谱各解决不同问题 DTI/DTA 模型路线很多，但最重要的是任务定义和冷启动评估。序列模型、图模型、结构模型、知识图谱模型不能混为一谈。 →

158 AI 分子生成模型：VAE、GAN、RL、Diffusion 不是同一种工具分子生成模型要按任务选型：分布学习、局部类似物优化、3D 构象生成、口袋条件生成和多目标优化对应不同范式。 →

159 图神经网络 GNN：分子图模型强在哪里，为什么仍会输给指纹基线 GNN 能直接从分子图学习表示，但小数据、标签噪声和划分不当时，ECFP+树模型仍可能更稳。不要把 GNN 当默认答案。 →

160 等变神经网络：3D 分子模型必须尊重旋转和平移对称性等变网络把 SE(3)/E(3) 对称性写进模型，使坐标、力、构象和复合物任务更物理一致。它解决几何问题，但不自动解决数据问题。 →

161 Transformer 在分子中的应用：从 SMILES 到图、3D 和多模态 Transformer 可用于 SMILES、分子图、蛋白序列、3D 结构和文本融合。它擅长建模关系，但不应被简化成“注意力万能”。 →

162 扩散模型在药物设计中：从去噪生成到可验证假设扩散模型适合生成 3D 构象、结合姿势、分子和蛋白骨架。它的优势是空间生成，风险是训练分布、采样成本和物理/合成验证不足。 →

163 大语言模型与药物发现：让 LLM 做编排，不要让它装成实验仪器 LLM 适合文献抽取、代码生成、工作流编排和报告解释；不适合直接预测 IC50、毒性或结合模式。它必须接工具、数据和验证。 →

164 多模态模型：结构、序列、文本和组学融合前先解决对齐问题多模态模型能融合分子结构、蛋白序列、文本和组学，但真正难点是样本对齐、缺失模态、偏差来源和可解释性。 →

165 主动学习 Active Learning：少做实验的前提是知道该问哪个问题主动学习通过模型挑选最值得实验的分子，但采集策略要服务项目决策：探索未知、优化活性、降低不确定性还是平衡 ADMET。 →

166 不确定性估计：模型什么时候应该说“我不知道” 药物发现最怕模型在分布外还很自信。不确定性估计用于主动学习、风险预警和决策分层，但必须校准。 →

167 模型外推性：药物发现真正考验的是新骨架和未来数据随机测试集分数多半衡量内插，不代表新系列、新靶点或未来项目表现。外推评估要看 scaffold、time、cold split 和适用域。 →

168 可解释性 AI：解释要能帮助化学决策，而不是只画热图可解释性在药物研发中用于纠错、沟通和生成 SAR 假设。解释图、注意力和特征归因都要验证忠实性和化学合理性。 →

169 Benchmark 陷阱：AI 制药论文高分是怎样被制造出来的数据泄漏、近似重复、随机划分、弱基线、指标选择和 cherry-picking 都能制造虚假高性能。读论文先审评测设计。 →

170 AI 制药论文阅读框架：任务、数据、模型、验证、落地五问读 AI 制药论文不要被模型名和高分带跑。用五问框架快速判断它解决什么、数据可靠吗、评测诚实吗、能否进入项目闭环。 →