CrystaLLM是一种基于自回归大语言模型(LLM)的晶体结构生成方法,其核心创新点在于直接学习晶体学信息文件(CIF)格式的文本表示,实现对无机晶体结构的生成与预测。 1. 模型原理与架构 - 基础框架:
CrystaLLM基于Transformer解码器架构,通过自回归训练预测CIF文件的下一个token。模型输入为CIF文本的符号序列(包括原子、空间群、数字和标点),输出为概率化的token序列。
训练数据: - 使用220万无机晶体的CIF文件(来源:Materials Project、OQMD、NOMAD),涵盖94种元素(除Po、At等放射性元素)。数据经标准化处理,数值精度保留4位小数。
- 词汇表设计:
包含371个token,分为CIF标签(蓝色)、原子符号(绿色)、数字(金色)和标点(红色)。
2. 核心能力 (1) 晶体结构生成 - 条件生成:
可通过提示(prompt)指定晶胞成分(cell composition)或空间群,生成对应结构。例如:
- 输入晶胞成分(如 Ba₆Mn₃Cr₃),模型输出完整CIF文件。
- 输入空间群(如 Fd3m)可约束对称性,提升生成准确性。
- 无条件生成:
从初始token data_ 开始,生成新颖且稳定的晶体结构。
(2) 泛化性能 - 未见结构生成:
在挑战集(70个结构,58个未见)测试中:
- 大模型(200M参数)对未见结构的匹配率达 41.4%(提供空间群时)。
- 成功生成复杂结构(如烧绿石A₂B₂O₇),其晶胞参数与DFT结果高度吻合。
元素替换与结构类比: - 模型可基于训练数据推断新结构(如用Yb替换ZrMn₆Sn₆中的Zr,生成YbMn₆Sn₆)。
3. 技术创新 (1) 启发式搜索优化(MCTS) - 结合能量预测:
集成蒙特卡洛树搜索(MCTS)与ALIGNN能量预测模型,提升生成结构的物理合理性:
- 对挑战集案例,MCTS使 85% 的结构能量降低。
- 无条件生成的102种新材料中,22种的Ehull接近稳定相(≤0.1 eV/atom)。
(2) 超越扩散模型 - 灵活性优势:
与DiffCSP、CDVAE等扩散模型相比:
- 支持无条件/条件生成模式无缝切换,无需调整架构。
- 原生支持空间群约束生成,无需模板检索(DiffCSP++需额外处理)。
- 模型参数更少(200M vs LLaMA-2的7B),部署成本低。
4. 应用与验证 - 材料发现:
无条件生成1000个结构,经DFT验证获得 20种稳定新材料(Ehull≤0.1 eV/atom),包括离子/半离子化合物(如Ba₄Na₂Ir₂O₁₁)。
在线平台: - 开放Web应用(crystallm.com),用户输入化学式可选填Z值或空间群,实时返回结构(含3D可视化)。
5. 局限性与展望 - 当前局限:
- 无法生成占位无序结构(如K₂NaTiOF₅中O/F共享位点)。
- 对磷酸盐/碳酸盐等复杂氧阴离子体系生成成功率较低(训练数据不足)。
- 未来方向:
- 微调模型预测物性(如晶格热导率)。
- 探索热力学反馈强化学习(RLHF变体),结合ALIGNN实现低能量结构定向生成。
总结 CrystaLLM通过将晶体结构转化为语言建模问题,突破了传统模板法的限制,为高通量材料发现提供了高效工具。其代码与模型已在Zenodo开源(CC-BY 4.0),推动材料信息学发展。
引用: L. M. Antunes, K. T. Butler and R.Grau-Crespo, Crystal structure generation with autoregressive large language modeling,Nat. Commun., 2024, 15, 10570.
|