一、模型架构与核心创新
Chemeleon 采用双模块协同框架,实现文本到晶体结构的跨模态生成:
1. Crystal CLIP 模块
o 功能:通过对比学习对齐文本与晶体结构的语义空间
o 机制:
文本编码器(基于 MatSciTPUBERT)提取文本嵌入
等变图神经网络(GNN)提取晶体图嵌入
优化目标:最大化正样本对(同一晶体的文本/图嵌入)的余弦相似度,最小化负样本对相似度(图1b)
o 创新点:解决传统文本编码器(如 MatSciBERT)难以捕捉三维结构信息的局限
2. 分类器无关引导扩散模型
o 生成流程:通过逆向扩散过程从噪声中重建晶体结构
o 条件控制:将 Crystal CLIP 的文本嵌入作为扩散过程的引导信号(FiLM 层实现特征调制)
o 输入输出:文本描述 → 晶体单元胞(原子类型/坐标/晶格矩阵)
二、关键技术突破
1. 跨模态对比学习
o 效果:文本嵌入能精准反映元素化学特性(如过渡金属/卤素聚类),显著提升跨模态对齐质量
o 数据:文本描述支持三种形式(组分式、格式化文本、自然语言),其中自然语言描述通过 LLM 生成
2. 三通道扩散机制
o 原子类型扩散:采用 D3PM 模型处理离散类别(吸收态转移矩阵)
o 晶格矩阵扩散:连续变量高斯噪声过程(保方差)
o 原子坐标扩散:周期性边界条件下的 Wrapped Normal 分布(兼容分数匹配)
o 训练损失:加权组合三类扩散的 VLB 损失与交叉熵损失
三、性能评估
在 Materials Project 数据集(40 原子以内晶体)的测试结果如下:
1. 结构生成质量(表1)
指标 Crystal CLIP(自然语言输入) 基线 BERT
有效性 99% 99%
唯一性 90% 97%
结构匹配率 20% 6%
亚稳定性 25% 23%
o 注:结构匹配率指生成结构中包含测试集真实结构的比例
2. 文本引导能力
o 组分匹配率:Crystal CLIP 达基线模型的 3 倍(自然语言输入)
o 晶系匹配率:82%(自然语言) vs. 65%(基线)
o 优势:对非结构化文本的适应性强,生成结构覆盖测试集分布
四、应用案例
1. TiO₂ 多形体预测
o 生成 549 种新型结构,含 122 种亚稳相
o 发现 50 种新空间群(如 R-3 对称性的四八面体混合配位结构)
2. Zn-Ti-O 三元体系
o 预测 1 种稳定结构(Ti₃Zn₂,空间群 I4/mmm)和 58 种亚稳相
o 创新结构:TiZn₇O₈(四面体 Ti 配位)、TiZnO₃(五配位 Ti 层)
3. Li-P-S-Cl 固态电解质
o 发现 17 种稳定相(原数据库仅含 2 种四元相)
o 验证 4 种动态稳定结构:Li₅PS₄Cl、Li₆PS₄Cl 等(声子谱无虚频)
o 计算效率:72 小时(A100 GPU) vs. 传统方法指数级耗时
引用:
Hyunsoo Park , Anthony Onwuli & Aron Walsh, Exploration of crystal chemical space using text-guided generative artificial intelligence, https://doi.org/10.1038/s41467-025-59636-y