返回列表 发布新帖
查看: 155|回复: 0

[AI结构预测] 粉末结构AI解析模型UstcUnfold

231

帖子

517

积分

53

金币

中级会员

积分
517
发表于 2025-7-30 16:29:39 | 查看全部 |阅读模式
本帖最后由 casjxm 于 2025-7-31 11:20 编辑

UstcUnfold模型的核心目标是通过人工智能技术直接从粉末X射线衍射(PXRD)数据中精确解析晶体结构,适用于有机和无机-有机杂化晶体材料。模型通过创新的两阶段神经网络架构和模板库匹配,克服了传统衍射分析方法中重叠峰解析难、依赖高分辨率数据等挑战。
1. ​模型背景与核心创新
传统晶体结构解析依赖单晶衍射或复杂的粉末衍射分步流程(如索引、分峰、结构求解和精修),存在对样品质量、仪器精度和专家经验的严苛要求。UstcUnfold提出一种端到端的AI解决方案,特点包括:
  • 直接处理常规PXRD数据:兼容标准仪器采集的快速、中等分辨率数据(最低20角度60°即可满足精度)。
  • 全面覆盖空间群:支持所有可能的晶体空间群(共225组)。
  • 两阶段优化机制:首先生成粗粒度结构,再通过化学约束的扩散网络原子级精修。
  • 模板库驱动:利用CCDC数据库构建谱图-结构模板库,解决衍射峰重叠问题。
2. ​模型架构与工作流程
UstcUnfold由三个核心模块组成:
​a. 模板库构建
  • 数据来源:基于CCDC数据库的110+理论结构-PXRD对(20角度0-90°)。
  • 聚类方法:将PXRD谱按最高峰位置分为900个区间,通过K-means聚类生成2000+代表性模板。
  • 模板类型
    • 局部细节模板:捕获金属-配体键合模式(有机晶体以苯环为伪金属原子)。
    • 全局框架模板:描述晶胞内原子分布。
  • 筛选标准:仅保留结构相似且与PXRD谱严格配对的模板。
b. PXRD嵌入模块​​
  • 输入处理:对比输入PXRD谱与模板库,筛选相似度最高的4个模板。
  • 特征提取
    • PXRD嵌入子模块:处理输入谱和匹配模板。
    • 结构嵌入子模块:处理配体结构。
  • 矩阵对齐:将嵌入特征拼接为矩阵,缺失部分补零。
c. 结构初始化模块​​
  • 粗粒度结构生成:基于嵌入矩阵,通过残差网络(结合变体EvoformerFlash-Transformer)预测:
    • 空间群(分类任务)。
    • 晶胞参数(a, b, c, α, β, γ)。
    • 原子坐标(类型及xyz位置)。
  • 关键技术
    • 残差堆叠捕获谱图-结构关联。
    • 绝对位置编码区分PXRD与结构特征。
d. 结构优化模块​​
  • 扩散精修网络:采用Diffusion     TransformerDiT)迭代优化粗结构。
  • 化学约束网络(Score & Bond Check Net     
    • 校验键长/键角符合化学规则。
    • 评估预测结构与PXRD匹配度(评分>0.9则保留,否则重新采样)。
  • 输出:原子级精修后的晶体结构。
3. ​训练策略与数据平衡
训练阶段
  • 无监督预训练
    • PXRD鲁棒性:对15%PXRD tokens随机掩码,训练模型修复(应对噪声/缺失峰)。
    • 化学约束网络:用错误结构-PXRD对(原子替换/删除)训练评分能力。
  • 监督训练
    • 结构初始化:联合优化空间群(交叉熵损失)、晶胞参数和原子坐标(MAE损失)。
    • 结构优化:基于高斯噪声增强数据,原子坐标采用RMSE损失。
    • 端到端训练:聚焦优化模块输出。
数据平衡
  • 空间群分布P21/cP-1占比59%,采用比例采样策略:
    • 2000样本的群组:按样本量反比采样(1%-50%)。
    • <2000样本的群组:固定采样50%
  • 测试集500CCDC结构(有机/配位化合物各250个),覆盖225个空间群。
4. ​性能评估
​a. 理论PXRD数据表现​​
  • 晶胞参数MAPE     <0.05(最大误差5.7%),配位化合物精度略优于有机化合物。
  • 空间群分类225个群组中154个准确率>95%,覆盖CCDC99.7%的结构。
  • 原子坐标MAE     ≈0.71Å(原子数<600时无显著性能衰减)。
  • 键参数:键长、键角、二面角的MAPE<0.1
b. 实验PXRD数据表现​​
  • 分辨率适应性20角度≥60°时结构误差(MAPE<0.1(常规仪器可达)。
  • 实测案例
    • 有机/配位化合物空间群预测准确。
    • 晶胞参数MAE≈0.115,原子坐标精度与理论数据相当。
    • 预测结构与实际结构几乎无法区分(见对比图)。
5. ​应用意义
UstcUnfold提供了一种快速、普适的晶体结构解析方案
  • 突破传统局限:无需单晶样品或高分辨率数据,适用于天然有机产物、生物分子配位单元等复杂体系。
  • 跨领域价值:为化学、材料科学、药学等领域提供原子级结构信息,推动谱图结构分子构型电子态的多尺度研究。
总结UstcUnfold通过结合模板库匹配与两阶段深度学习架构,实现了从常规PXRD数据到精确晶体结构的端到端预测,为晶体结构解析提供了革命性的AI解决方案。

参考:
Di Wu, Pengkun Wang, Shiming Zhou, Bochun Zhang, Liheng Yu, Xi Chen, XuWang, Zhengyang Zhou, Yang Wang, Sujing Wang, Jiangfeng Du, A PowderDiffraction-AI Solution for Crystalline Structure
您需要登录后才可以回帖 登录 | 注册

本版积分规则

  • 微信小程序
  • 公众号
  • 微信客服

关于我们|Archiver|APP客户端|小黑屋|物质结构社区 ( 闽ICP备2024081439号-1 )

GMT+8, 2025-9-8 15:44 , Processed in 0.015604 second(s), 5 queries , Redis On.

Powered by Discuz! X5.0

© 2001-2025 Discuz! Team.

在本版发帖
科研需求联系客服
添加微信客服
返回顶部
快速回复 返回顶部 返回列表