AIDD·Atlas AI 制药学习地图
399

反应数据库:USPTO、Reaxys 与 Pistachio 怎么用

反应数据库是训练合成 AI 的燃料:USPTO 免费、Reaxys/Pistachio 更全但商业;理解其覆盖与偏差很重要。

合成 AI(逆合成、反应预测)都靠反应数据训练。本篇梳理主要反应数据库。

主要数据库

  • USPTO:从专利抽取的免费反应数据集
  • Reaxys:商业、覆盖广、人工整理
  • Pistachio:商业、专利反应数据
  • CAS/电子实验记录等内部数据

怎么用与注意

  • USPTO 是开源合成 AI 的常用训练集
  • 数据偏向「成功、已发表」的反应
  • 原子映射与清洗影响模型质量
  • 商业库更全但有许可与成本

关键要点

反应数据决定合成 AI 的上限;注意「成功偏差」与数据质量,开源研究多用 USPTO。

延伸资源

  • 对照 384《逆合成入门》、389《条件与产率预测》。