返回列表 发布新帖
查看: 105|回复: 0

[AI结构预测] 晶体结构生成大语言模型CrystaLLM

231

帖子

517

积分

53

金币

中级会员

积分
517
发表于 2025-8-1 15:28:20 | 查看全部 |阅读模式
CrystaLLM是一种基于自回归大语言模型(LLM)的晶体结构生成方法,其核心创新点在于直接学习晶体学信息文件(CIF)格式的文本表示,实现对无机晶体结构的生成与预测。
​1. 模型原理与架构
  • 基础框架
         CrystaLLM基于Transformer解码器架构,通过自回归训练预测CIF文件的下一个token。模型输入为CIF文本的符号序列(包括原子、空间群、数字和标点),输出为概率化的token序列。

训练数据
  • 使用220万无机晶体的CIF文件(来源:Materials ProjectOQMDNOMAD),涵盖94种元素(除PoAt等放射性元素)。数据经标准化处理,数值精度保留4位小数。
  • 词汇表设计
         包含371token,分为CIF标签(蓝色)、原子符号(绿色)、数字(金色)和标点(红色)。

​2. 核心能力
​​(1) 晶体结构生成
  • 条件生成
         可通过提示(prompt)指定晶胞成分(cell composition)或空间群,生成对应结构。例如:

    • 输入晶胞成分(如 Ba₆Mn₃Cr₃),模型输出完整CIF文件。
    • 输入空间群(如 Fd3m)可约束对称性,提升生成准确性。
  • 无条件生成
         从初始token data_     开始,生成新颖且稳定的晶体结构。

​​(2) 泛化性能
  • 未见结构生成
         在挑战集(70个结构,58个未见)测试中:

    • 大模型(200M参数)对未见结构的匹配率达41.4%​(提供空间群时)。
    • 成功生成复杂结构(如烧绿石A₂B₂O₇),其晶胞参数与DFT结果高度吻合。
元素替换与结构类比
  • 模型可基于训练数据推断新结构(如用Yb替换ZrMn₆Sn₆中的Zr,生成YbMn₆Sn₆)。
​3. 技术创新
​​(1) 启发式搜索优化(MCTS​​
  • 结合能量预测
         集成蒙特卡洛树搜索(MCTS)与ALIGNN能量预测模型,提升生成结构的物理合理性:     

    • 对挑战集案例,MCTS使85%​的结构能量降低。
    • 无条件生成的102种新材料中,22种的Ehull接近稳定相(≤0.1 eV/atom)。
​​(2) 超越扩散模型
  • 灵活性优势
         DiffCSPCDVAE等扩散模型相比

    • 支持无条件/条件生成模式无缝切换,无需调整架构。
    • 原生支持空间群约束生成,无需模板检索(DiffCSP++需额外处理)。
    • 模型参数更少(200M vs LLaMA-27B),部署成本低。
​4. 应用与验证
  • 材料发现
         无条件生成1000个结构,经DFT验证获得20种稳定新材料Ehull≤0.1 eV/atom),包括离子/半离子化合物(如Ba₄Na₂Ir₂O₁₁)。

在线平台
  • 开放Web应用(crystallm.com),用户输入化学式可选填Z值或空间群,实时返回结构(含3D可视化)。
​5. 局限性与展望
  • 当前局限
    • 无法生成占位无序结构(如K₂NaTiOF₅O/F共享位点)。
    • 对磷酸盐/碳酸盐等复杂氧阴离子体系生成成功率较低(训练数据不足)。
  • 未来方向
    • 微调模型预测物性(如晶格热导率)。
    • 探索热力学反馈强化学习RLHF变体),结合ALIGNN实现低能量结构定向生成。
总结
CrystaLLM通过将晶体结构转化为语言建模问题,突破了传统模板法的限制,为高通量材料发现提供了高效工具。其代码与模型已在Zenodo开源(CC-BY 4.0),推动材料信息学发展。

引用:
L. M. Antunes, K. T. Butler and R.Grau-Crespo, Crystal structure generation with autoregressive large language modeling,Nat. Commun., 2024, 15, 10570.

您需要登录后才可以回帖 登录 | 注册

本版积分规则

  • 微信小程序
  • 公众号
  • 微信客服

关于我们|Archiver|APP客户端|小黑屋|物质结构社区 ( 闽ICP备2024081439号-1 )

GMT+8, 2025-9-9 05:52 , Processed in 0.015518 second(s), 5 queries , Redis On.

Powered by Discuz! X5.0

© 2001-2025 Discuz! Team.

在本版发帖
科研需求联系客服
添加微信客服
返回顶部
快速回复 返回顶部 返回列表