AIDD·Atlas AI 制药学习地图
137

REINVENT 论文精读:强化学习生成分子的本质是奖励函数工程

REINVENT 用 RNN 生成 SMILES,再用强化学习把分布推向目标区域。真正难点不是会生成,而是奖励函数是否代表真实项目目标。

REINVENT 的经典论文是 Olivecrona 等人在 2017 年 Journal of Cheminformatics 发表的 Molecular de-novo design through deep reinforcement learning。它奠定了“先学会生成化学,再用奖励函数定向优化”的范式。

核心机制

  • Prior:先用大量 SMILES 训练 RNN,让模型知道什么是合法且常见的分子。
  • Agent:复制 prior 后用强化学习更新,使它更倾向于生成高奖励分子。
  • Augmented likelihood:把 prior 约束和目标得分结合,避免模型完全跑偏。

项目里怎么判断

  • 奖励函数如果只含 logP、QED、相似性,就很容易生成“指标漂亮但没项目意义”的分子。
  • 应加入合成可行性、结构约束、ADMET、选择性、专利空间和化学家过滤。
  • 强化学习结果必须检查多样性;只优化一个奖励,常会模式塌缩。

关键要点

  • REINVENT 的关键是 prior + agent + reward;
  • 奖励函数决定生成质量,也最容易被钻空子;
  • 项目使用要把 DMTA 实验反馈接回模型。

延伸资源

  • 论文:Olivecrona et al., J. Cheminform. 2017;配套:138《REINVENT4》。