AIDD·Atlas AI 制药学习地图
144

ProtT5 论文精读:蛋白嵌入是特征工程,不是万能功能预测器

ProtT5 属于 ProtTrans 系列,用 T5 架构在蛋白序列上预训练。它适合生成通用蛋白嵌入,但下游任务仍依赖标签质量和验证设计。

ProtT5 来自 ProtTrans 系列(Elnaggar 等, IEEE TPAMI 2021/2022)。这类模型把蛋白序列当作“生命语言”来做自监督预训练,再把得到的嵌入用于结构、定位、功能、突变效应等下游任务。

它提供什么

  • 单序列嵌入:不必为每个蛋白搜索 MSA,就能得到固定维度表示。
  • 迁移特征:可接简单分类器/回归器,用于二级结构、亚细胞定位、功能注释等。
  • 工程便利:适合批量给蛋白库生成 embedding,接入下游模型。

注意事项

  • ProtT5 embedding 不是功能真值;下游标签偏差会直接影响模型。
  • 对蛋白-配体结合、构象变化、复合物功能,仅靠序列 embedding 不够。
  • 项目中应与结构、表达、组学、实验活性一起使用。

关键要点

  • ProtT5 的核心价值是通用蛋白序列 embedding;
  • 它适合做下游特征,不应被当成功能预测终点;
  • 真实药研任务要融合结构和实验数据。

延伸资源

  • 论文:Elnaggar et al., IEEE TPAMI 2021/2022;配套:143《ESM-2》。