REINVENT 论文精读：强化学习生成分子的本质是奖励函数工程

REINVENT 的经典论文是 Olivecrona 等人在 2017 年 Journal of Cheminformatics 发表的 Molecular de-novo design through deep reinforcement learning。它奠定了“先学会生成化学，再用奖励函数定向优化”的范式。

核心机制

Prior：先用大量 SMILES 训练 RNN，让模型知道什么是合法且常见的分子。
Agent：复制 prior 后用强化学习更新，使它更倾向于生成高奖励分子。
Augmented likelihood：把 prior 约束和目标得分结合，避免模型完全跑偏。

项目里怎么判断

奖励函数如果只含 logP、QED、相似性，就很容易生成“指标漂亮但没项目意义”的分子。
应加入合成可行性、结构约束、ADMET、选择性、专利空间和化学家过滤。
强化学习结果必须检查多样性；只优化一个奖励，常会模式塌缩。

关键要点

REINVENT 的关键是 prior + agent + reward；
奖励函数决定生成质量，也最容易被钻空子；
项目使用要把 DMTA 实验反馈接回模型。

延伸资源

论文：Olivecrona et al., J. Cheminform. 2017；配套：138《REINVENT4》。