返回列表 发布新帖
查看: 124|回复: 0

[AI结构预测] 化学符号系统SMILES

231

帖子

517

积分

53

金币

中级会员

积分
517
发表于 2025-7-29 22:17:11 | 查看全部 |阅读模式
本帖最后由 casjxm 于 2025-7-29 22:18 编辑

SMILESSimplified Molecular Input Line Entry System)是一种专为现代化学信息处理设计的化学符号系统,由DavidWeininger1987年提出。它基于分子图论原理,旨在提供一种简洁、用户友好的方法来严格指定分子结构,同时支持高效的机器处理。以下将从SMILES的目标、核心原理、基本规则、特殊约定、应用优势等方面进行详细介绍,结构丰富以全面覆盖文献内容。在介绍具体示例时,我会嵌入文献中的相关图片,确保它们紧邻原始描述位置。

1. ​SMILES的目标与核心原理
SMILES旨在解决传统化学符号系统(如Wiswesser Line Notation)的复杂性,实现以下目标:
  • 用户友好性:化学家可以快速学习并使用自然语法输入分子结构,无需记忆过多规则。
  • 机器兼容性:系统设计为机器可读,支持高效算法处理,如结构唯一化、数据库检索和子结构搜索。
  • 结构唯一性:基于分子图论,将分子视为二维图(节点为原子,边为键),确保结构描述严谨且可重现。与三维结构无关,仅关注拓扑连接。
  • 高效性SMILES显著减少存储需求(例如,**结构仅需40字符,而传统连接表需上千字符),并提升处理速度(文献称比CASMOL系统快100倍)。
核心原理是分离用户输入与机器处理:用户输入一般性结构描述,计算机算法自动转换为标准唯一形式(如检测芳香性、添加氢原子)。这避免了传统系统对符号长度和字母经济的过度依赖。

2. ​SMILES的基本规则
SMILES使用线性字符串表示分子结构,规则简单直观。以下是关键输入规则,基于文献第2“SMILES:SPECIFICATION RULES”
  • 原子表示
    • 原子用原子符号表示,例如C(碳)、O(氧)、N(氮)。
    • 有机子集元素(BCNOPSFClBrI)可省略括号,隐含氢原子(如C代表甲烷CH₄)。非有机元素必须用括号(如[Au]代表金)。
    • 芳香原子用小写字母(如c代表芳香碳),非芳香原子用大写。
    • 氢原子和电荷在括号内指定:H后加数字表示附加氢(如[OH₃⁺]代表水合氢离子),+-后加数字表示电荷(如[Fe⁺²]代表铁(II)离子)。
    • 氢原子通常被抑制(不显式写出),但可显式指定(如[H][H]代表氢气)。
  • 键表示
    • 键类型用符号指定:-(单键,通常省略)、=(双键)、#(三键)、:(芳香键)。
    • 例如:乙烷为CC,乙烯为C=C,乙炔为C#N(代表HCN),苯为c1ccccc1(芳香键)。
  • 分支结构
    • 分支用括号表示,可嵌套。例如:三乙胺为CCN(CC)CC,异丁酸为CC(C)C(=O)O
  • 循环结构
    • 环通过数字指定环闭合点:在环的断裂点原子后加相同数字。例如:环己烷可表示为C1CCCCC1(数字1表示闭合)。
    • 数字可复用(如少于10个环时),或用于%前缀处理多环(如C2%13%24)。
    • 示例:1-甲基-3-溴环己烯的SMILES可为BrC1=CC(C)CCC1或等效形式。
  • 断开结构
    • 不连接的分子(如离子)用点分隔。例如:钠苯酚盐为[Na+].[O-]c1ccccc1
    • 电荷分离不直接指定键;系统自动处理。
基本SMILES子集仅需4规则:原子符号、键符号(=#)、分支括号、环闭合数字,覆盖大多数有机化合物。

3. ​SMILES的特殊约定
文献第3“SMILES NOTATION CONVENTIONS”详述了处理复杂情况的规则,确保一致性和自动化转换:
  • 氢指定
    • 氢通常隐含:非括号原子根据最低正常价添加氢(如S代表H₂SO代表H₂O)。
    • 例外:分子氢[H][H]、质子[H⁺],或同位素氢(如[²H])需显式写出。算法自动移除不必要氢原子,仅在需要时保留。
  • 芳香性检测
    • 系统自动检测芳香环(用户可输入芳香或非芳香形式),基于Hückel规则(4N+2 π电子)。
    • 芳香原子用小写(如苯为c1ccccc1);输入非芳香形式(如C1=CC=CC=C1)会被转换为芳香表示。
    • 规则:sp²杂化原子环,π电子数符合4N+2。例如:呋喃(O捐赠孤对,电子)为芳香;醌(O=C1C=CC(=O)C=C1)因羰基氧夺取电子,为非芳香。
    • 氮的特殊处理:吡啶(n1ccccc1,氮无附加氢) vs. 吡咯([nH]1cccc1,氮有附加氢)。算法根据键数推断氢状态。
  • 键类型和互变异构体
    • 共价键优先;离子键用点分隔电荷(如硝酸盐O=N+[O-]而非电荷分离形式)。
    • 互变异构体需显式指定(如2-吡啶酮为O=c1[nH]cccc1,而非互变异构体形式)。系统不处理移动氢;用户选择稳定形式。
  • 其他元素
    • 磷、硫、砷等类似氮/氧处理(捐赠电子对)。非标准元素(如硒)暂未全面支持。
4. ​示例:**的SMILES生成
文献以**(复杂多环结构)为例,展示SMILES的灵活性。**含5个环(一芳香环),生成过程包括:
  • 断裂环并指定闭合点(数字1-5)。
  • 芳香碳用小写c表示。
  • 生成非循环图字符串。
原始描述为:"Break& number 5 ring closures:",并对应以下图片,展示环断裂和数字标记:
最终SMILES为:O2c1c(ccc3)c4c1c(ccc4)OC5C3C2CC5(文献示例)。完整进化过程在Figure 1中描述:
此例体现SMILES的简洁性:复杂结构仅需短字符串,算法自动处理芳香性和氢抑制。
5. ​优势与应用
文献强调SMILES在化学信息处理中的革新性优势:
  • 高效存储与检索:字符串格式节省空间(如数据库条目),支持常数时间检索(零阶速度)。
  • 子结构搜索:基于图论算法,实现快速灵活的子结构匹配(如搜索特定官能团)。
  • 模型构建:用于物性预测(如logP分区系数、分子折射率),支持QSAR研究。
  • 兼容性:可转换为非芳香形式或连接表,兼容其他系统。
  • 扩展性:后续工作包括唯一SMILES生成、结构可视化(如打印分子图)、和高级搜索功能。
6. ​结论
SMILES语言通过简化输入规则和自动化处理(如芳香性检测),在化学信息系统中实现了用户友好与机器效率的平衡。它奠定了现代化学数据库、子结构搜索和预测模型的基础,后续发展(如唯一SMILES)进一步增强了其严谨性。文献认为,SMILES代表了化学符号系统的重要进步,尤其适合大规模化学信息处理应用。

引用:
Weininger, D. SMILES a chemical languageand information system. 1. Introduction to methodology and encoding rules. J.Chem. Inf. Model. 1988, 28, 31−36.

您需要登录后才可以回帖 登录 | 注册

本版积分规则

  • 微信小程序
  • 公众号
  • 微信客服

关于我们|Archiver|APP客户端|小黑屋|物质结构社区 ( 闽ICP备2024081439号-1 )

GMT+8, 2025-9-8 13:05 , Processed in 0.015420 second(s), 5 queries , Redis On.

Powered by Discuz! X5.0

© 2001-2025 Discuz! Team.

在本版发帖
科研需求联系客服
添加微信客服
返回顶部
快速回复 返回顶部 返回列表