REINVENT 的经典论文是 Olivecrona 等人在 2017 年 Journal of Cheminformatics 发表的 Molecular de-novo design through deep reinforcement learning。它奠定了“先学会生成化学,再用奖励函数定向优化”的范式。
核心机制
- Prior:先用大量 SMILES 训练 RNN,让模型知道什么是合法且常见的分子。
- Agent:复制 prior 后用强化学习更新,使它更倾向于生成高奖励分子。
- Augmented likelihood:把 prior 约束和目标得分结合,避免模型完全跑偏。
项目里怎么判断
- 奖励函数如果只含 logP、QED、相似性,就很容易生成“指标漂亮但没项目意义”的分子。
- 应加入合成可行性、结构约束、ADMET、选择性、专利空间和化学家过滤。
- 强化学习结果必须检查多样性;只优化一个奖励,常会模式塌缩。
关键要点
- REINVENT 的关键是 prior + agent + reward;
- 奖励函数决定生成质量,也最容易被钻空子;
- 项目使用要把 DMTA 实验反馈接回模型。
延伸资源
- 论文:Olivecrona et al., J. Cheminform. 2017;配套:138《REINVENT4》。