返回列表 发布新帖
查看: 114|回复: 0

[AI结构预测] 化学符号系统SELFIES

231

帖子

517

积分

53

金币

中级会员

积分
517
发表于 2025-8-4 11:06:34 | 查看全部 |阅读模式
一、背景与动机
问题:SMILES的局限性
传统分子表示方法SMILESSimplified Molecular Input LineEntry System)在生成式模型(如VAEGAN)中面临核心问题:
  • 高无效率:随机突变或模型生成的SMILES字符串常违反化学规则(如价键约束、括号不匹配),文献中单次突变的无效率超90%(图3实验)。
  • 阻碍模型应用:无效分子导致化学空间探索效率低下,影响逆分子设计任务的可行性。
解决方案:SELFIES
提出SELFIESSELF-referencIng Embedded Strings),一种100%鲁棒的分子字符串表示法:
  • 核心特性:任意SELFIES字符串均对应有效分子,且可描述所有分子。
  • 兼容性:无需修改机器学习模型架构即可直接输入。

二、技术原理:形式化语法与鲁棒性保障
1. ​形式化语法框架
SELFIES基于上下文无关文法ChomskyType-2),定义规则表:
  • 规则向量(Rule Vectors:每个符号对应**义操作(原子添加、分支、成环)。
  • 状态机制(Derivation States:状态     Xn约束后续原子的最大价键数(如     X4X_4X4​ 允许4个键)。
2. ​自引用函数
  • 分支(BranchB(N, X_i) 生成含 N 符号的子图,从状态     Xi推导。
  • 成环(RingR(N) 连接当前原子与第     (N+1)个前驱原子,自动验证价键有效性。
3. ​100%有效性证明
  • 本地化约束:每个符号的推导依赖当前状态,强制满足价键规则(例:[F][=C][=C][#N] → F-C=C=N)。
  • 环验证:仅在目标原子价键未饱和时生成环,避免无效连接。

三、生成模型性能验证
1. ​变分自编码器(VAE​​
  • 潜空间有效性SMILES仅小部分潜空间对应有效分子,SELFIES整个潜空间有效
  • 分子多样性SELFIES潜空间包含100的独特分子。
2. ​生成对抗网络(GAN​​
  • 多样性对比SELFIES生成78.9%独特有效分子,SMILES18.6%

四、扩展性与跨领域应用
1. ​化学空间覆盖
  • 支持离子、立体化学、超大分子(如PubChem7200万分子,SMILES长度<500字符)。
  • GitHub提供扩展规则库(如环/分支原子数≤8000)。
2. ​跨学科适用性
  • 量子光学实验:成功描述多光子纠缠实验配置,证明框架可迁移至其他约束图结构领域。

五、标准化与未来方向
  • 标准化工作坊:计划扩展至全周期表、立体化学标识,采用Unicode符号提升可读性。
  • 科学解释性100%有效性支持对生成模型内部机制的化学解释(如潜空间结构分析)。
文献结论SELFIES解决了SMILES在逆分子设计中的根本缺陷,为AI驱动的材料发现提供可靠基础。

引用:
Krenn, M., Häse, F., Nigam, A., Friederich,P., and Aspuru-Guzik, A. (2020). Self-referencing embedded strings (SELFIES): A100% robust molecular string representation. Mach. Learn.: Sci. Technol. 1,045024. 10.1088/2632-2153/aba947.

您需要登录后才可以回帖 登录 | 注册

本版积分规则

  • 微信小程序
  • 公众号
  • 微信客服

关于我们|Archiver|APP客户端|小黑屋|物质结构社区 ( 闽ICP备2024081439号-1 )

GMT+8, 2025-9-8 16:00 , Processed in 0.015289 second(s), 5 queries , Redis On.

Powered by Discuz! X5.0

© 2001-2025 Discuz! Team.

在本版发帖
科研需求联系客服
添加微信客服
返回顶部
快速回复 返回顶部 返回列表