AIDD·Atlas AI 制药学习地图
143

ESM-2 论文精读:蛋白语言模型为什么能预测结构,但不是 AlphaFold 替代品

ESM-2/ESMFold 证明蛋白语言模型能从单序列学到结构线索,速度快、适合大规模预测;但缺少 MSA 时精度和复杂相互作用仍有限。

ESM-2 是 Meta AI 的大规模蛋白语言模型,相关 Science 2023 工作用 ESMFold 展示了单序列结构预测和大规模 metagenomic 结构预测能力。它的意义是把蛋白序列预训练推到结构生物学核心任务中。

为什么有效

  • 自监督预训练:在海量蛋白序列上学习氨基酸上下文和进化统计规律。
  • 免 MSA:不依赖每次运行时搜索多序列比对,因此推理速度快。
  • 结构迁移:ESMFold 把语言模型表示接到结构模块,预测单链结构。

不能夸大

  • 速度快不等于任何场景更准;AF2/AF3 在很多高精度结构任务上仍更强。
  • 对复合物、配体、构象变化、无序区,不能只看单序列预测。
  • 用于药物靶点时,必须看 pLDDT/PAE、口袋可信度和实验结构证据。

关键要点

  • ESM-2 展示蛋白语言模型可学习结构/功能线索;
  • ESMFold 强在快速单序列结构预测;
  • 药设场景仍需结构质量和复合物验证。

延伸资源

  • 论文:Lin et al., Science 2023;配套:116《ESMFold》。