|
1. SLICES的核心概念与背景
问题背景:
传统晶体材料逆向设计面临的核心挑战是缺乏可逆(invertible)且不变(invariant)的晶体表示方法。分子设计可通过SMILES等字符串实现编码与重建,但晶体因周期性结构、旋转/平移/置换不变性要求,导致现有方法(如3D图像、晶体图)无法兼顾可逆性与不变性。
SLICES定义:
Simplified Line-Input Crystal-Encoding System(SLICES)是一种基于字符串的晶体表示法,通过编码晶体的拓扑连接性(topology)和化学成分(composition),同时满足:
• 可逆性:字符串可准确重建原始晶体结构(重建率94.95%);
• 不变性:对旋转、平移、原子置换等操作具有不变性;
• 周期性感知:通过边标签(edge labels)描述晶格平移。
2. SLICES的编码规则
编码流程:
1. 原子符号序列:字符串开头列出单胞内所有原子符号(如NdSiRu);
2. 边连接表示:每条边表示为uvxyz,其中:
o uv:节点索引(如原子序号);
o xyz:平移向量(用o/+/-分别表示0/1/-1,避免与节点索引混淆)。
示例:边标签"0 0 I"表示连接节点Co与沿c轴平移一单位的C1原子。
技术细节:
• 邻域定义:采用EconNN算法(Pymatgen实现)确定原子近邻环境,构建化学键连接;
• 简化设计:不依赖对称群,直接编码单胞内所有原子,简化规则但增加字符串长度(现代NLP模型可高效处理长序列)。
3. 重建流程:SLI2Cry
从SLICES字符串重建晶体的三步算法:
(I) 初始结构生成(基于图论)
• 利用Eon拓扑方法将SLICES转化为标记商图,计算质心嵌入(barycentric embedding),获得最大对称性初始结构。
(II) 化学几何优化(基于改进GFN-FF力场)
• 通过改进GFN-FF力场预测化学键长/键角,生成目标矩阵;
• 优化非质心嵌入(non-barycentric embedding)匹配目标几何约束,得到ZL*优化结构。
(III) 结构精修(基于M3GNet势函数)
• 使用M3GNet原子间势能(预训练图神经网络)对优化结构进行弛豫,获得最终晶体。
4. 性能验证
重建准确率(MP-20数据集测试):
结构类型 严格匹配率(%) 宽松匹配率(%)
初始缩放结构 77.87 91.36
ZL*优化结构 84.57 94.05
M3GNet精修结构(最终) 92.55 94.95
横向对比:
• CDVAE(扩散模型):重建率仅45.43%;
• FTCP(傅里叶变换):重建率69.89%(且无不变性);
• SLICES优势:高重建率+不变性+支持86号以下元素。
局限性:
• 无法处理低维结构(分子/层状晶体),因商图碎片化(需未来层级图方法);
• MOF重建失败:QMOF数据集重建率<7%(需引入结构单元节点优化)。
5. 应用案例:逆向设计窄带隙半导体
流程:
1. 训练RNN模型:
o 通用RNN学习Materials Project中30k+晶体的SLICES语法;
o 专用RNN学习窄带隙半导体特征(目标带隙0.325±0.225 eV)。
2. 生成与筛选:
o 生成1000万SLICES字符串 → 重建340万晶体结构;
o 通过能带/稳定性/成分新颖性/结构独特性筛选,发现14种新型半导体。
6. 总结与前景
创新点:
• 首个兼顾可逆性、不变性、周期性感知的晶体字符串表示法;
• 重建性能显著超越现有方法,支持生成式AI驱动材料设计。
未来方向:
• 扩展至MOF/低维晶体(层级图表示);
• 结合Transformer/GPT架构提升生成效率;
• 适配超导体/拓扑材料等逆向设计场景。
注:SLICES代码已开源(GitHub),数据与Docker镜像详见文献引用。
引用:
Hang Xiao, Rong Li, Xiaoyang Shi, Yan Chen , Liangliang Zhu, Xi Chen & Lei Wang, An invertible, invariant crystal representation for inverse design of solid-state materials using generative deep learning, 2023, https://doi.org/10.1038/s41467-023-42870-7
|
|