Therapeutics Data Commons, TDC(Huang 等, NeurIPS Datasets and Benchmarks 2021)试图把 AI 制药任务系统化:从单分子性质、药物-靶点相互作用,到药物组合、临床试验和多组学任务,都放进同一套问题-数据-评测框架。
它解决什么问题
- 任务地图:把零散的 ADMET、DTI、反应、临床、组学任务归到统一入口。
- 可复现加载:PyTDC 让数据下载、划分和指标调用更简单。
- 强调真实挑战:论文明确指出分布转移、多尺度异质数据和新样本泛化仍是难点。
使用边界
- TDC 是研究基准,不等于企业数据治理;真实项目还要处理实验批次、协议差异和单位标准化。
- Leaderboard 会随版本变化,引用时要写明 TDC 版本、任务、split 和 metric。
- 不要把某个 TDC 分数直接解释成临床或实验成功率。
关键要点
- TDC 的价值是任务体系化和复现便利;
- 它提醒我们关注分布转移和泛化,而不是只刷分;
- 项目落地必须补内部数据验证和实验闭环。
延伸资源
- 论文:Huang et al., NeurIPS Datasets and Benchmarks 2021;工具:PyTDC;配套:170《论文阅读框架》。