合成 AI(逆合成、反应预测)都靠反应数据训练。本篇梳理主要反应数据库。
主要数据库
- USPTO:从专利抽取的免费反应数据集
- Reaxys:商业、覆盖广、人工整理
- Pistachio:商业、专利反应数据
- CAS/电子实验记录等内部数据
怎么用与注意
- USPTO 是开源合成 AI 的常用训练集
- 数据偏向「成功、已发表」的反应
- 原子映射与清洗影响模型质量
- 商业库更全但有许可与成本
关键要点
反应数据决定合成 AI 的上限;注意「成功偏差」与数据质量,开源研究多用 USPTO。
延伸资源
- 对照 384《逆合成入门》、389《条件与产率预测》。