iMatGen(Image-basedMaterials Generator)是一种用于无机固体材料逆向设计的生成模型,由Noh等人提出。该模型通过构建连续的材料潜在空间,实现从目标属性到新材料的非随机发现。其核心创新在于使用可逆的图像基础表示(invertible image-based representation),解决了传统方法因表示不可逆而导致的设计瓶颈。 1. 模型框架:分层两步结构 iMatGen采用分层两步架构,结合卷积自编码器(CAE)和变分自编码器(VAE),实现材料表示压缩与生成。这一框架分为: - 第一步:图像压缩(Image Compression)
晶体结构被分解为两个3D图像表示:
- 单胞图像(Cell Image):编码晶格参数(边长和角度),通过高斯函数在网格中表示(m3网格点)。
- 基础图像(Basis Image):编码原子位置,每个原子类型(如V和O)独立表示为高斯峰叠加(n3网格点)。
卷积自编码器压缩这些图像为低维向量,保留结构信息。
- 第二步:材料生成器(Materials Generator, MG)
基于变分自编码器(VAE),将压缩向量映射到潜在空间(latent space)。潜在空间是连续的,并通过分类网络嵌入稳定性标签(稳定材料:形成能 Ef≤0.5eV/atom;不稳定材料:其他)。这允许在潜在空间中高效采样稳定区域。
2. 工作原理:编码、解码与生成 - 编码(Encoding)
晶体结构被转换为cell和basis图像(例如,单胞用 m=32网格,基础用 n=64网格,分辨率0.23 Å)。卷积自编码器压缩图像为中间向量,减少维度。 - 潜在空间构建
VAE学习数据分布,潜在空间通过主成分分析(PCA)可视化,显示稳定与不稳定材料的聚类。稳定性标签的嵌入确保采样偏向低能结构。 - 解码与生成(Decoding)
采样潜在向量后,分层解码生成新结构:
- MG解码器输出中间向量。
- 图像压缩解码器重建cell和basis图像。
- 逆变换(inverse transform)恢复晶格参数(精确重建)和原子位置(通过图像滤波)。
新生成的结构可能需后处理(如避免原子重叠),并通过DFT优化验证。 3. 关键特性 - 可逆表示(Invertible Representation)
cell图像可通过方程精确逆变换为晶格参数(误差为0)。basis图像的原子位置重建误差平均为0.11 Å(有限网格导致),模型重建后降至0.19 Å(Table 1)。这确保了表示的可靠性。 - 稳定性嵌入(Stability Embedding)
分类网络将潜在空间组织为稳定/不稳定区域,使采样聚焦于可合成材料(Ef≤0.5eV/atom)。 - 高效采样方法
支持两种采样策略:
- 球面线性插值(Slerp):在已知结构间插值,偏向稳定区域。
- 随机采样(Random):高斯分布采样,覆盖边界区域(可能包含亚稳态结构)。
4. 应用与结果:V-O系统验证 iMatGen在vanadiumoxides(V-O)系统中验证,使用MaterialsProject数据库构建10,981个V-O结构(VO数据集)。 - 重新发现已知结构
训练时排除31个MP数据库中的V-O结构,通过采样潜在空间成功重建25个(80%成功率),包括8个实验已知结构(ICSD)。Figure 5展示采样点与重建结果。 - 预测新结构与成分
生成约20,000个新结构:
- 新成分:如V6O7、V5O8等(Table 2),其中V6O7为全新组合(未见于MP或VO数据集)。
- 新同质异形体:生成低能结构(能量上凸包Ehull ≤ 80 meV/atom)。
- 相稳定性分析
DFT计算显示新结构均为亚稳态(负形成能),40个结构Ehull ≤ 80 meV/atom(80%实验已知氧化物在此范围内)。
5. 优势与比较 - vs. 遗传算法(如CALYPSO)
iMatGen在探索化学组成空间时更高效:
- iMatGen:生成52个新成分和40个稳定结构,总计约14,000次DFT计算(含数据集构建)。
- 遗传算法:需预设成分(如V3O4),每成分需~3,600次DFT计算;探索所有iMatGen生成成分需~93,600次计算。
- 扩展性
模型可扩展至高阶化合物(三元及以上),需结合机器学习力场构建数据库。
6. 结论 iMatGen通过可逆图像表示和分层生成框架,首次实现无机固体的逆向设计。在V-O系统中,它不仅重新发现实验结构,还预测出可合成的亚稳态新材料。其效率优于传统方法,并为功能材料设计(如添加属性优化任务)奠定基础。未来方向包括扩展至更复杂系统和集成主动学习。 此模型代码与数据公开于GitHub仓库,促进材料发现社区应用。
引用: Noh, J. et al. Inverse design of solid-state materialsvia a continuous representation. Matter 1, 1370–1384 (2019).
|