一、背景与动机 问题:SMILES的局限性
传统分子表示方法SMILES(Simplified Molecular Input LineEntry System)在生成式模型(如VAE、GAN)中面临核心问题: - 高无效率:随机突变或模型生成的SMILES字符串常违反化学规则(如价键约束、括号不匹配),文献中单次突变的无效率超90%(图3实验)。
- 阻碍模型应用:无效分子导致化学空间探索效率低下,影响逆分子设计任务的可行性。
解决方案:SELFIES
提出SELFIES(SELF-referencIng Embedded Strings),一种100%鲁棒的分子字符串表示法: - 核心特性:任意SELFIES字符串均对应有效分子,且可描述所有分子。
- 兼容性:无需修改机器学习模型架构即可直接输入。
二、技术原理:形式化语法与鲁棒性保障 1. 形式化语法框架 SELFIES基于上下文无关文法(ChomskyType-2),定义规则表: - 规则向量(Rule Vectors):每个符号对应**义操作(原子添加、分支、成环)。
- 状态机制(Derivation States):状态 Xn约束后续原子的最大价键数(如 X4X_4X4 允许4个键)。
2. 自引用函数 - 分支(Branch):B(N, X_i) 生成含 N 符号的子图,从状态 Xi推导。
- 成环(Ring):R(N) 连接当前原子与第 (N+1)个前驱原子,自动验证价键有效性。
3. 100%有效性证明 - 本地化约束:每个符号的推导依赖当前状态,强制满足价键规则(例:[F][=C][=C][#N] → F-C=C=N)。
- 环验证:仅在目标原子价键未饱和时生成环,避免无效连接。
三、生成模型性能验证 1. 变分自编码器(VAE) - 潜空间有效性:SMILES仅小部分潜空间对应有效分子,SELFIES整个潜空间有效。
- 分子多样性:SELFIES潜空间包含超100倍的独特分子。
2. 生成对抗网络(GAN) - 多样性对比:SELFIES生成78.9%独特有效分子,SMILES仅18.6%。
四、扩展性与跨领域应用 1. 化学空间覆盖 - 支持离子、立体化学、超大分子(如PubChem中7200万分子,SMILES长度<500字符)。
- GitHub提供扩展规则库(如环/分支原子数≤8000)。
2. 跨学科适用性 - 量子光学实验:成功描述多光子纠缠实验配置,证明框架可迁移至其他约束图结构领域。
五、标准化与未来方向 - 标准化工作坊:计划扩展至全周期表、立体化学标识,采用Unicode符号提升可读性。
- 科学解释性:100%有效性支持对生成模型内部机制的化学解释(如潜空间结构分析)。
文献结论:SELFIES解决了SMILES在逆分子设计中的根本缺陷,为AI驱动的材料发现提供可靠基础。
引用: Krenn, M., Häse, F., Nigam, A., Friederich,P., and Aspuru-Guzik, A. (2020). Self-referencing embedded strings (SELFIES): A100% robust molecular string representation. Mach. Learn.: Sci. Technol. 1,045024. 10.1088/2632-2153/aba947.
|