AIDD·Atlas AI 制药学习地图

399

反应数据库:USPTO、Reaxys 与 Pistachio 怎么用

反应数据库是训练合成 AI 的燃料：USPTO 免费、Reaxys/Pistachio 更全但商业；理解其覆盖与偏差很重要。

合成 AI（逆合成、反应预测）都靠反应数据训练。本篇梳理主要反应数据库。

主要数据库

USPTO：从专利抽取的免费反应数据集
Reaxys：商业、覆盖广、人工整理
Pistachio：商业、专利反应数据
CAS/电子实验记录等内部数据

怎么用与注意

USPTO 是开源合成 AI 的常用训练集
数据偏向「成功、已发表」的反应
原子映射与清洗影响模型质量
商业库更全但有许可与成本

关键要点

反应数据决定合成 AI 的上限；注意「成功偏差」与数据质量，开源研究多用 USPTO。

延伸资源

对照 384《逆合成入门》、389《条件与产率预测》。