AIDD·Atlas AI 制药学习地图
164

多模态模型:结构、序列、文本和组学融合前先解决对齐问题

多模态模型能融合分子结构、蛋白序列、文本和组学,但真正难点是样本对齐、缺失模态、偏差来源和可解释性。

多模态模型在 AI 制药中很诱人,因为真实研发决策本来就依赖多源信息:化学结构、蛋白序列、复合物结构、文献、专利、组学、实验记录和临床信息。

融合什么

  • 化学模态:SMILES、分子图、3D 构象、反应信息。
  • 生物模态:蛋白序列、结构、表达、突变、通路、组学。
  • 文本模态:论文、专利、实验记录、临床试验、公司公告。
  • 实验模态:assay 条件、批次、剂量-反应、蛋白组学读数。

核心难点

  • 不同模态是否指向同一 biological context?细胞系、物种、时间点不一致会误导融合。
  • 缺失模态很常见,模型不能只在完整样本上表现好。
  • 多模态模型更难解释,需要能追溯每条证据来源。

关键要点

  • 多模态的难点是对齐,不是简单拼接;
  • 融合可能增强证据,也可能放大偏差;
  • 药研平台必须保留来源、上下文和审计链。

延伸资源

  • 配套:154《AI 靶点发现》、163《LLM 与药物发现》。