MolMIM(Reidenbach 等, 2022/ICLR MLDD 2023)是一种面向受约束小分子生成的概率自编码模型。它用 Mutual Information Machine 训练,让可变长度 SMILES 映射到固定长度隐空间。
论文核心
- 固定长度隐空间:便于在连续空间中搜索和优化。
- 密集有效区域:训练目标鼓励隐空间附近采样能解码成合法分子。
- CMA-ES 优化:在隐空间中做黑箱搜索,优化相似性约束和目标属性。
怎么不被高分误导
- 论文中的目标多是标准化代理任务,项目中要换成真实多参数目标。
- 相似性约束能保留已知 scaffold,但也可能限制跳出局部化学空间。
- 隐空间优化输出必须做可合成性、专利、结构合理性和实验优先级判断。
关键要点
- MolMIM = MIM 隐空间 + 受约束属性优化;
- 适合做 analog generation 和局部优化探索;
- 隐空间高分不等于先导物,需要 DMTA 验证。
延伸资源
- 论文:Reidenbach et al., arXiv 2022 / ICLR MLDD 2023;配套:158《分子生成模型》。