ESM-2 是 Meta AI 的大规模蛋白语言模型,相关 Science 2023 工作用 ESMFold 展示了单序列结构预测和大规模 metagenomic 结构预测能力。它的意义是把蛋白序列预训练推到结构生物学核心任务中。
为什么有效
- 自监督预训练:在海量蛋白序列上学习氨基酸上下文和进化统计规律。
- 免 MSA:不依赖每次运行时搜索多序列比对,因此推理速度快。
- 结构迁移:ESMFold 把语言模型表示接到结构模块,预测单链结构。
不能夸大
- 速度快不等于任何场景更准;AF2/AF3 在很多高精度结构任务上仍更强。
- 对复合物、配体、构象变化、无序区,不能只看单序列预测。
- 用于药物靶点时,必须看 pLDDT/PAE、口袋可信度和实验结构证据。
关键要点
- ESM-2 展示蛋白语言模型可学习结构/功能线索;
- ESMFold 强在快速单序列结构预测;
- 药设场景仍需结构质量和复合物验证。
延伸资源
- 论文:Lin et al., Science 2023;配套:116《ESMFold》。