|
Molecular Sets (MOSES) 是一个开源的基准测试平台,旨在标准化分子生成模型的训练、评估和比较。它由多个研究机构联合开发(包括 Insilico Medicine、Harvard University 等)。MOSES 解决了分子生成领域的关键挑战:缺乏统一的评估协议,使研究人员能公平比较不同模型在药物发现和材料设计中的性能。
1. MOSES 平台概述
MOSES 平台的核心目标是提供一个透明、可扩展的框架,用于评估生成模型在分子设计中的效果。它专注于 分布学习 (Distribution Learning) 任务,即模型从训练数据中学习分子分布的潜在规律,并生成新颖、多样且符合化学规则的新分子。该平台支持多种分子表示方法(如 SMILES 和分子图),并集成了数据集、评估指标和基线模型,使研究人员能快速复现实验或贡献新模型。
• 关键优势:
o 标准化:统一的数据预处理、训练/测试集划分和评估流程,消除实验偏差。
o 实用性:生成的分子可用于虚拟筛选或增强半监督预测模型,加速药物发现。
o 可扩展性:支持新模型和指标的集成,通过 GitHub 和 PyPI 包 (molsets) 实现社区协作。
2. 数据集:来源、处理与划分
MOSES 的数据集基于 ZINC Clean Leads 库,专为筛选“先导化合物”(hit compounds)设计,这些分子具有优化 ADMET(吸收、分布、代谢、排泄和毒性)属性的潜力。数据集经过严格过滤以确保化学合理性和多样性:
• 来源与规模:原始数据包含 4,591,276 个分子,分子量范围 250–350 Da,旋转键 ≤7,XlogP ≤3.5。
• 过滤规则:
o 移除带电原子、非标准原子(仅保留 C, N, S, O, F, Cl, Br, H)、大环(>8 原子)。
o 应用 药物化学过滤器 (MCFs) 和 PAINS 过滤器(移除干扰化合物),确保分子无**子结构。
o 最终数据集包含约 176 万分子,内部多样性(IntDiv₁)为 0.857,包含 448,854 个独特 Bemis-Murcko 支架和 58,315 个 BRICS 片段。
• 标准划分:
o 训练集(Train):1,584,664 个分子。
o 测试集(Test):176,075 个分子(随机子集)。
o 支架测试集(TestSF):176,226 个分子(基于随机子集的 Bemis-Murcko 支架,确保支架在训练集中未出现),用于评估模型生成新支架的能力。
数据集的设计确保了化学多样性和实用性,支持模型泛化性测试。
3. 分子表示方法
MOSES 支持多种分子表示形式,便于不同模型处理。文档详细描述了两种主流方法:
• 字符串表示(如 SMILES):
这是生成模型最常用的格式,因其兼容序列建模工具(如 RNNs)。
o SMILES (Simplified Molecular Input Line Entry System):通过遍历分子图的生成树编码原子和键。不同生成树可能导致多个 SMILES 表示同一分子,但规范化过程可解决歧义。SMILES 的灵活性使其成为基准首选。
o 其他变体包括 DeepSMILES(减少无效序列)和 SELFIES(基于语法规则确保有效性),但文档指出 SMILES 在生成任务中表现最佳。
• 分子图表示:
直接以图结构表示分子(节点=原子,边=键),支持图神经网络(如 GCNs、MolGAN)。
o 优势:保留拓扑信息,适用于结构敏感的模型(如 Junction Tree VAE)。
o 氢原子可显式或隐式处理(基于原子价推断)。
这些表示方法的灵活性使 MOSES 能适配多种生成架构,从序列模型到图生成模型。
4. 评估指标:全面量化生成质量
MOSES 定义了一套多维度指标,评估生成分子的 有效性、多样性 和 分布一致性。所有指标基于生成集(G,通常取 30,000 个样本)与参考集(R,如测试集)计算。关键指标包括:
• 基本质量指标:
o 有效性(Valid):生成分子中符合化学规则的比例(使用 RDKit 解析器检查原子价和芳香环)。低值表示模型未捕获约束。
o 独特性(Unique@k):前 k 个有效分子中的唯一比例(k=1,000 或 10,000)。低值表明模型坍塌(mode collapse)。
o 新颖性(Novelty):生成分子中未出现在训练集的比例。低值表示过拟合。
o 过滤器通过率(Filters):生成分子通过 MCFs/PAINS 过滤的比例。衡量模型隐式避免**子结构的能力。
• 分布相似性指标:
o 碎片相似性(Frag):比较生成集与参考集的 BRICS 片段分布,使用余弦相似度(范围 [0,1])。高值表明片段分布匹配。
o 支架相似性(Scaff):类似 Frag,但基于 Bemis-Murcko 支架(核心环结构),评估支架分布匹配度(范围 [0,1])。
o 最近邻相似性(SNN):生成分子与参考集中最近邻的平均 Tanimoto 相似度(基于 Morgan 指纹)。高值表示生成分子接近参考流形(范围 [0,1])。
• 多样性与分布距离指标:
o 内部多样性(IntDivₚ):生成集内部的化学多样性(p=1 或 2)。高值表示高多样性,检测模式坍塌。
o Fréchet ChemNet 距离(FCD):基于预训练网络 ChemNet 的激活计算,捕获化学和生物属性分布差异。低值表示分布匹配(FCD/Test 是推荐的主指标)。
o 属性分布可视化:比较分子量(MW)、logP(辛醇-水分配系数)、SA(合成可及性评分)和 QED(药物相似性)的分布。文档用核密度估计图展示生成集与测试集的匹配度,并计算 Wasserstein-1 距离定量比较。
这些指标覆盖了生成模型的常见失败模式(如过拟合、多样性不足),并提供直观可视化工具。
5. 基线模型与性能比较
MOSES 实现了多种代表性生成模型作为基线,便于新模型对标:
• 神经模型:
o CharRNN:基于 RNN 的序列模型,在 SMILES 上训练,表现最佳(FCD 最低,支架新颖性高)。
o VAE(变分自编码器):编码-解码架构,学习潜在空间分布。
o AAE(对抗自编码器):用判别器替代 VAE 的 KL 散度,支持任意先验分布。
o JTN-VAE:分阶段生成(先建树再组装子图),确保分子有效性。
o LatentGAN:结合自编码器和 GAN,在潜在空间生成。
• 非神经基线:
o n-gram 模型:基于 n-gram 频率采样序列。
o 隐马尔可夫模型(HMM):状态转移和发射概率建模。
o 组合生成器:随机连接 BRICS 片段,支持高多样性但分布匹配较差。
性能总结:
• CharRNN 在关键指标(如 FCD、Frag、Scaff)领先,表明其泛化能力强。
• VAE 易过拟合(低新颖性),但 SNN 高。
• 组合生成器多样性最高(IntDiv 优于训练集),但分布匹配弱。
• 所有模型均能隐式避免**子结构(Filters >97%)。
6. 平台实现与使用
MOSES 以开源形式发布,便于社区采用:
• 访问方式:
o GitHub 仓库:https://github.com/molecularsets/moses(含数据集、代码和文档)。
o PyPI 包:molsets,支持 Python 3 和 PyTorch 集成。
• 工作流程:
1. 使用训练集训练模型。
2. 生成 30,000 个分子样本。
3. 运行评估脚本计算所有指标(推荐 3 次随机种子测试以评估稳定性)。
4. 贡献新模型:提交生成结果和指标报告。
• 实用性:平台简化了模型比较,例如通过 FCD 优化超参数或使用 TestSF 评估新支架生成能力。
7. 应用与意义
MOSES 不仅是一个评估工具,还推动分子生成领域的发展:
• 应用场景:
o 虚拟库构建:生成分子扩展筛选库,保留训练集隐含规则。
o 半监督学习:生成样本增强预测模型训练。
o 药物发现:加速设计新化合物(如文档中案例:生成活性分子)。
• 核心贡献:
o 解决领域痛点:缺乏标准化基准(类似 ImageNet 在 CV 中的作用)。
o 促进公平比较:通过统一指标(如 FCD)排名模型。
o 开源生态:鼓励社区协作,持续添加新模型(如扩散模型)。
• 局限与未来:当前聚焦分布学习;未来可扩展目标导向任务(如优化特定属性)。
结论
MOSES 平台通过标准化数据集、多维度指标和基线模型,为分子生成模型提供了一个可靠的基准测试环境。它解决了该领域长期缺乏统一评估协议的问题,推动生成模型在药物发现中的实际应用。研究者和开发者可通过其开源实现快速验证新方法,加速 AI 驱动的分子设计创新。随着社区贡献的扩大,MOSES 有望成为分子生成领域的核心参考平台。
引用:
Polykovskiy, D. et al. Molecular sets (Moses): a benchmarking platform for
molecular generation models. Front. Pharmacol. 11, 1931 (2020).
|
|