返回列表 发布新帖
查看: 97|回复: 0

[AI结构预测] GuacaMol 分子生成模型性能评估标准化框架

231

帖子

517

积分

53

金币

中级会员

积分
517
发表于 2025-8-6 09:56:54 | 查看全部 |阅读模式
GuacaMol 是一个专为评估分子生成模型性能而设计的标准化框架,由 BenevolentAI 团队开发。


一、背景与动机
1.        问题定位
o        传统虚拟筛选受限于预生成分子库规模(仅覆盖化学空间极小部分,约 10¹³/10²⁴⁻⁶⁰)。
o        深度生成模型(如 VAE、RNN)在分子设计中崭露头角,但缺乏统一评估标准,难以横向比较性能。
2.        核心目标
建立可复现、多维度的评估体系,推动分子生成模型发展(类比计算机视觉领域的 ImageNet)。


二、基准设计框架
GuacaMol 包含两类基准任务:
(一)分布学习任务(Distribution-Learning Benchmarks)
评估模型捕捉训练集化学分布的能力:
1.        有效性(Validity):生成分子的化学结构合法性(SMILES 解析/价态校验)。
2.        唯一性(Uniqueness):生成分子的非重复性。
3.        新颖性(Novelty):生成分子与训练集(ChEMBL)的非重叠性。
4.        Fréchet ChemNet 距离(FCD):通过生物活性预测网络 ChemNet 隐空间对比分布相似性(值越低越好)。
5.        KL 散度(KL Divergence):9 种物化性质(如 logP、TPSA)的分布匹配度。
(二)目标导向任务(Goal-Directed Benchmarks)
评估模型优化特定属性的能力,涵盖 20 项任务:
•        相似性/再发现:生成与目标分子(如 Celecoxib)相似或相同的结构。
•        异构体生成:指定分子式(如 C₉H₁₀N₂O₂PF₂Cl)下的结构探索。
•        中值分子优化:同时匹配多个目标分子的特征(如同时接近 camphor 和 menthol)。
•        多目标优化(MPO):平衡相似性、物化性质(如 Osimertinib 的 logP/TPSA 约束)。
•        骨架跃迁(Scaffold Hop):保留关键药效团的同时改变核心骨架。


三、关键评估维度
1.        分子质量过滤
采用 Walters' rd filters 规则集(含 SureChembl、PAINS 等),过滤不稳定/难合成分子,量化高质量分子比例。
2.        性能对比结果
o        分布学习:LSTM 与 VAE 表现最佳(FCD 0.913/0.863),ORGAN 因模式坍塌垫底(FCD 0)。
o        目标导向:图遗传算法(Graph GA)综合最优,LSTM 次之但分子质量更优。


四、模型对比
模型类型                                    优势                                                  局限
图遗传算法(Graph GA)        优化性能最强(细粒度结构编辑)        分子质量不稳定(通过率 40%)
SMILES LSTM                      质量接近虚拟筛选基准(通过率 77%)        略逊于 Graph GA 的优化能力
MCTS                                   新颖性高                                                分布学习与优化任务均表现弱
VAE/AAE                                 分布拟合能力强                                  目标导向任务未测试


五、开源与影响
•        资源开放:Python 包 (GitHub) 包含基准实现、数据集(基于 ChEMBL 24 预处理)与基线模型。
•        领域意义:
首次建立分子生成模型的标准化评估体系,揭示神经模型(LSTM)与传统算法(GA)的互补性:神经模型通过预训练提升分子合理性,GA 在复杂优化中更具灵活性。
文献结论强调:未来需设计更复杂任务(如合成可行性),并推动模型从 SMILES 向图结构生成演进。


引用:
Brown, N., Fiscato, M., Segler, M. H. & Vaucher, A. C. Guacamol: benchmarking
models for de novo molecular design. J. Chem. Inf. Model. 59, 1096–1108 (2019).


您需要登录后才可以回帖 登录 | 注册

本版积分规则

  • 微信小程序
  • 公众号
  • 微信客服

关于我们|Archiver|APP客户端|小黑屋|物质结构社区 ( 闽ICP备2024081439号-1 )

GMT+8, 2025-9-7 17:51 , Processed in 0.015333 second(s), 5 queries , Redis On.

Powered by Discuz! X5.0

© 2001-2025 Discuz! Team.

在本版发帖
科研需求联系客服
添加微信客服
返回顶部
快速回复 返回顶部 返回列表