AIDD·Atlas AI 制药学习地图

164

多模态模型：结构、序列、文本和组学融合前先解决对齐问题

多模态模型能融合分子结构、蛋白序列、文本和组学，但真正难点是样本对齐、缺失模态、偏差来源和可解释性。

多模态模型在 AI 制药中很诱人，因为真实研发决策本来就依赖多源信息：化学结构、蛋白序列、复合物结构、文献、专利、组学、实验记录和临床信息。

融合什么

化学模态：SMILES、分子图、3D 构象、反应信息。
生物模态：蛋白序列、结构、表达、突变、通路、组学。
文本模态：论文、专利、实验记录、临床试验、公司公告。
实验模态：assay 条件、批次、剂量-反应、蛋白组学读数。

核心难点

不同模态是否指向同一 biological context？细胞系、物种、时间点不一致会误导融合。
缺失模态很常见，模型不能只在完整样本上表现好。
多模态模型更难解释，需要能追溯每条证据来源。

关键要点

多模态的难点是对齐，不是简单拼接；
融合可能增强证据，也可能放大偏差；
药研平台必须保留来源、上下文和审计链。

延伸资源

配套：154《AI 靶点发现》、163《LLM 与药物发现》。