返回列表 发布新帖
查看: 124|回复: 0

[AI结构预测] 晶体结构AI预测DiffractGPT模型

231

帖子

517

积分

53

金币

中级会员

积分
517
发表于 2025-7-30 12:18:22 | 查看全部 |阅读模式
本帖最后由 casjxm 于 2025-7-30 12:19 编辑

1. 模型定位与核心目标
DiffractGPT是一种生成式预训练变换器(GPT)模型,专为从X射线衍射(XRD)图谱直接预测原子结构而设计。它解决了传统晶体结构解析中的两大痛点:
  • 信息损失:XRD将三维结构信息压缩为一维图谱,导致相位信息丢失。
  • 计算成本高:依赖Rietveld精修、模拟退火等迭代方法,需大量计算资源和领域专家干预。
2. 技术基础与架构
  • 基础框架:基于Mistral AI 7B模型(73亿参数),采用Transformer架构,支持高效微调。
  • 关键组件
    • 多头自注意力机制(公式1):学习XRD特征与晶体结构的复杂映射关系。
    • 低秩自适应(LoRA):减少微调参数量,加速训练。
    • 旋转位置嵌入(RoPE):提升位置编码能力,适用于长序列数据。
  • 输入适配:XRD图谱**值为180个数据点(0.5°间隔),转换为字符串输入。
3. 训练数据与方法
  • 数据集:使用JARVIS-DFT数据库(约80,000个3D材料+1,100个2D材料),包含模拟XRD图谱及对应原子结构。
  • 数据验证:模拟XRD与实验数据对比验证了数据可靠性(如硅、碳化硅等),峰值位置高度吻合(图1b-f)
  • 训练策略:90%数据用于训练,10%测试,采用监督微调(SFT)和交叉熵损失函数,仅需5个训练周期。
4. 创新性应用场景
支持三种输入模式,适应不同实验条件:
  • 无化学信息:仅输入XRD图谱→预测结构(精度最低)。
  • 元素列表:输入元素种类+XRD→提升空间群预测准确性。
  • 明确化学式:输入化学式+XRD→最佳性能(晶格常数MAE≈0.17Å)。
5. 性能优势
  • 超越传统方法
[td]  
   方法    晶格常数MAE (Å)      结构RMSD (Å)   
  梯度提升树(GBR)    1.03~1.27    -  
  卷积神经网络(CNN)    0.27~0.28    -  
  DiffractGPT(无化学式)    0.25~0.38    0.23  
  ​DiffractGPT(含化学式)   ​0.17~0.27   ​0.07  
6. 工作流程与优化
  • 核心流程
    • 用户输入XRD图谱→自动背景扣除。
    • 匹配JARVIS数据库(余弦相似度)或调用DiffractGPT生成结构。
    • 可选ALIGNN-FF力场优化:修正原子位置,减少XRD图谱误差。
  • 优化效果:ALIGNN-FF可修复峰值数量错误(如硅结构从7峰→6峰),降低MAE。
7. 局限性与未来方向
  • 当前限制
    • 缺陷结构(如原子位移)的泛化能力弱。
    • 模型可解释性低:数十亿参数难以物理解析。
  • 改进方向
    • 扩展训练数据至实验图谱和缺陷材料。
    • 结合物理约束增强生成结构的合理性。
8. 工具与资源
  • 开源代码:AtomGPT GitHub
  • 在线应用:JARVIS-XRD网站(支持图谱匹配与结构生成)
DiffractGPT通过融合生成式AI与材料科学,实现了晶体结构的高效自动化解析,为高通量材料设计提供了新范式。其轻量化训练(仅需5周期)和多样化输入支持,显著降低了领域门槛,推动计算与实验社区的协同创新。

引用:
Kamal Choudhary, DiffractGPT: AtomicStructure Determination from X‑ray Diffraction Patterns Using a GenerativePretrained Transformer, J. Phys. Chem. Lett. 2025, 16, 2110−2119.

您需要登录后才可以回帖 登录 | 注册

本版积分规则

  • 微信小程序
  • 公众号
  • 微信客服

关于我们|Archiver|APP客户端|小黑屋|物质结构社区 ( 闽ICP备2024081439号-1 )

GMT+8, 2025-9-9 07:36 , Processed in 0.016168 second(s), 5 queries , Redis On.

Powered by Discuz! X5.0

© 2001-2025 Discuz! Team.

在本版发帖
科研需求联系客服
添加微信客服
返回顶部
快速回复 返回顶部 返回列表