多模态模型在 AI 制药中很诱人,因为真实研发决策本来就依赖多源信息:化学结构、蛋白序列、复合物结构、文献、专利、组学、实验记录和临床信息。
融合什么
- 化学模态:SMILES、分子图、3D 构象、反应信息。
- 生物模态:蛋白序列、结构、表达、突变、通路、组学。
- 文本模态:论文、专利、实验记录、临床试验、公司公告。
- 实验模态:assay 条件、批次、剂量-反应、蛋白组学读数。
核心难点
- 不同模态是否指向同一 biological context?细胞系、物种、时间点不一致会误导融合。
- 缺失模态很常见,模型不能只在完整样本上表现好。
- 多模态模型更难解释,需要能追溯每条证据来源。
关键要点
- 多模态的难点是对齐,不是简单拼接;
- 融合可能增强证据,也可能放大偏差;
- 药研平台必须保留来源、上下文和审计链。
延伸资源
- 配套:154《AI 靶点发现》、163《LLM 与药物发现》。