返回列表 发布新帖
查看: 109|回复: 0

[AI结构预测] 原子对分布函数AI结构识别工具MLstructureMining

231

帖子

517

积分

53

金币

中级会员

积分
517
发表于 2025-7-31 12:11:00 | 查看全部 |阅读模式
MLstructureMining 是一种基于机器学习的晶体结构识别工具,专为处理 X 射线对分布函数(PDF)数据设计。以下从核心原理、技术实现、性能验证和应用场景四个方面系统介绍该模型:
一、模型原理与目标
核心任务:通过比对实验 PDF 数据与模拟 PDF 数据库,快速识别材料晶体结构(空间群、晶胞参数、原子位置)。
创新点
  • 自动化筛选:无需预先输入化学成分信息,直接通过 PDF 匹配实现结构识别。
  • 高效处理:在数秒内扫描数千种结构,克服传统手动筛选的低效问题。
二、技术实现流程
​1. 数据准备与预处理
  • 结构数据库:从晶体学开放数据库(COD)筛选 10,833 个含过渡金属/镧系元素的氧化物/硫化物/氢化物结构。
  • PDF 相似性聚类:计算模拟 PDF     的皮尔逊相关系数(PCC),将 PCC ≥ 0.95 的结构归为同一类,最终形成6,062 个结构类别(降低冗余)。
  • 参数扰动增强:对每个结构生成     100 个变体,通过拉丁超立方采样扰动晶胞参数(±4%)和原子位移参数(Uiso = 0.005–0.025 Ų),提升模型鲁棒性。
​2. 机器学习模型
  • 算法选择XGBoost 分类器(梯度提升决策树),因其在高维分类任务中的优异表现。
  • 训练配置
    • 数据划分:80% 训练集、10% 验证集、10% 测试集(确保类别均衡)。
    • 输入格式:PDF 范围 0–30 Å,步长 0.1 Å(满足香农-奈奎斯特采样定理)。
  • 输出:对输入 PDF 输出概率排序的结构类别列表(Top-N 建议)。
​3. 性能优化
  • 对抗性测试:使用零阶优化(ZOO)攻击验证鲁棒性,Top-3 准确率仅从 99% 降至 97%
  • 不确定性评估SoftMax 概率值指示预测置信度(低概率提示数据分布外样本)。
三、性能验证结果
​1. 模拟数据测试
  • Top-1 准确率91%6,062 个类别)。
  • Top-3 准确率99%(覆盖绝大多数潜在匹配)。
​2. 实验数据验证
通过四个典型案例展示泛化能力:
  • 案例 1CoFe₂O₄ 纳米颗粒(17 nm
    • 成功识别尖晶石结构(空间群 Fd3ˉ\bar{3}3ˉm)。
    • Top-3 建议均为尖晶石变体,Rietveld 精修 Rwp 16.9–17.7%
    • 局限:无法区分散射因子相近元素(如 FeCoNi)。
  • 案例 2CeO₂ 纳米颗粒(< 20 Å
    • 识别萤石结构(如 La₁.₂U₀.₈O₄),精修 Rwp = 16.5%
    • 成功外推至小尺寸样本(训练数据为无限晶体)。
  • 案例 3WOₓ 纳米颗粒(高无序,Qmax = 15 Å⁻¹
    • Top-3 概率均 ≈1%SoftMax 值提示数据超出训练分布。
    • 印证模型对低 Qmax 或高无序样本的局限性。
  • 案例 4Bi₂Fe₄Oₙ 原位合成 PDF 序列
    • 结合无监督学习(PCA + NMF)分离反应中间体与产物相。
    • 成功识别莫来石结构(Bi₂Ga₄O₉),Rwp = 22.7%
四、应用场景与优势
  • 高通量分析:适用于同步辐射大数据(如 1 PB/天的 PDF 数据)。
  • 实时结构解析:集成至实验线站(如 MAXIV DanMAX),实现原位实验在线分析。
  • 多方法联用:与     PCA/NMF 结合处理多相体系,提升复杂数据解释力。
  • 开源部署
    • Python 库:https://github.com/EmilSkaaning/MLstructureMining
    • Hugging Face 应用:https://huggingface.co/Ekjaer/MLstructureMining
总结
MLstructureMining 通过机器学习解决了传统结构筛选的低效问题,在晶体纳米材料结构识别中表现出高精度与强泛化能力。其与无监督降维方法的结合,为复杂动力学过程(如原位合成)提供了自动化分析新范式。

引用:
Kjær, E. et al. MLstructureMining: amachine learning tool for structure identification from X-ray pair distributionfunctions. Digit. Discov. 3, 908–918 (2024).

您需要登录后才可以回帖 登录 | 注册

本版积分规则

  • 微信小程序
  • 公众号
  • 微信客服

关于我们|Archiver|APP客户端|小黑屋|物质结构社区 ( 闽ICP备2024081439号-1 )

GMT+8, 2025-9-8 15:54 , Processed in 0.015233 second(s), 5 queries , Redis On.

Powered by Discuz! X5.0

© 2001-2025 Discuz! Team.

在本版发帖
科研需求联系客服
添加微信客服
返回顶部
快速回复 返回顶部 返回列表