2. 核心组件详解
(a) Wyckoff位置为基础的无机晶体表示
WyCryst的核心创新是将晶体表示为基于Wyckoff位置的特征,显式编码空间群对称性。Wyckoff位置描述了原子在单位晶胞中的对称等价位置,每个空间群(共230种)有固定的Wyckoff位点(包括通用位置和特殊位置),这些位点定义了原子的自由度(DoF)。表示形式包括:
• 空间群数组(Si ):One-hot编码的230维向量,标识晶体的空间群编号。
• Wyckoff数组(Xi=(Fi,Vi,Wi)):
o Fi :化学计量矩阵,one-hot编码元素的化学式(如CaTiO₃)。
o Vi:原子特征矩阵,源自晶体图卷积神经网络(CGCNN),包含原子属性(如电负性、半径)。
o Wi :Wyckoff位点占用矩阵,描述每个元素在Wyckoff位点的多重性和自由度(DoF)。例如,DoF=0表示原子位置完全固定(对称操作不变),DoF=3表示需优化3个参数。
这种表示确保了生成的结构自动满足空间群对称性,且可逆性强——从表示到最终晶体结构的DFT弛豫只需微小调整。关键优势是避免传统方法中原子位置和晶格常数的随机性,提升结构有效性至100%(文献中定义的有效性标准:所有生成结构可通过DFT弛豫且原子间距离>0.5 Å)。
(b) 属性导向的变分自编码器(PVAE)模型
PVAE模型是生成部分的核心,它学习晶体数据的分布并引导潜在空间朝向目标属性。模型架构包括编码器、解码器和属性学习分支:
• 编码器:使用卷积神经网络(CNN)将Wyckoff数组映射到潜在空间,输出均值(Zmean)和方差(Zvariance ),定义多元高斯分布。
• 解码器:从潜在空间重构Wyckoff数组,生成新晶体的“Wyckoff Genes”(即对称性约束的晶体构建块)。
• 损失函数:确保对称性遵守和属性学习:
o 重构损失(Lrecon):结合均方误差(MSE)和交叉熵,最小化输入与重构的Wyckoff数组和空间群数组的差异(公式1)。
o KL散度损失(L_{KL}}):正则化潜在空间为高斯分布(公式2)。
o 属性损失(Lprop):通过全连接网络连接潜在空间与目标属性(如形成能、带隙),最小化预测值与真实值的MSE(公式3)。
o Wyckoff损失(LWyckoff):关键创新点,计算真实化学式与重构对称性加权公式的MSE,惩罚违反空间群对称性的生成(公式4)。这确保原子位置和晶格常数无需显式预测,而是通过对称性“snap-to-grid”优化。
潜在空间可视化(图1c)显示属性导向效果:形成能(Ef)梯度在PCA图中清晰可见,且不同晶系(如立方和三角晶系)形成聚类,证明模型捕捉了对称性和属性的关联。