ProtT5 来自 ProtTrans 系列(Elnaggar 等, IEEE TPAMI 2021/2022)。这类模型把蛋白序列当作“生命语言”来做自监督预训练,再把得到的嵌入用于结构、定位、功能、突变效应等下游任务。
它提供什么
- 单序列嵌入:不必为每个蛋白搜索 MSA,就能得到固定维度表示。
- 迁移特征:可接简单分类器/回归器,用于二级结构、亚细胞定位、功能注释等。
- 工程便利:适合批量给蛋白库生成 embedding,接入下游模型。
注意事项
- ProtT5 embedding 不是功能真值;下游标签偏差会直接影响模型。
- 对蛋白-配体结合、构象变化、复合物功能,仅靠序列 embedding 不够。
- 项目中应与结构、表达、组学、实验活性一起使用。
关键要点
- ProtT5 的核心价值是通用蛋白序列 embedding;
- 它适合做下游特征,不应被当成功能预测终点;
- 真实药研任务要融合结构和实验数据。
延伸资源
- 论文:Elnaggar et al., IEEE TPAMI 2021/2022;配套:143《ESM-2》。