返回列表 发布新帖
查看: 103|回复: 0

[结构与性能数据库] 粉末衍射机器学习基准数据库SIMPOD

231

帖子

517

积分

53

金币

中级会员

积分
517
发表于 2025-7-30 15:40:59 | 查看全部 |阅读模式
SIMPOD(Simulated Powder X-ray Diffraction Open Database)是一个首个公开的粉末X射线衍射机器学习基准数据库,旨在解决现有数据集私有化、结构单一性问题。该数据库包含467,861个晶体结构及其模拟衍射数据,源自开放资源Crystallography Open Database(COD),覆盖矿物、金属有机框架、有机化合物等多样化结构。

核心特性与创新
1.        数据规模与多样性
o        来源:整合COD截至2023年中期的晶体结构(筛选4-256原子的结构以平衡难度与计算成本)。
o        组成:包含空间群、晶胞参数、原子坐标等完整晶体学信息(JSON格式),以及一维衍射图谱和二维径向图像(PNG格式)。
o        多样性验证:涵盖所有230个空间群,元素覆盖周期表多数原子(图4a-b),有机化合物占比显著(H/C/N/O原子超10⁵个)。
2.        双模态数据设计
o        一维衍射图谱:模拟2θ范围5°–90°(10,824个强度点),Cu靶波长(1.5406 Å),峰值宽度0.01°,强度归一化至[0,1]。
o        二维径向图像:通过数学变换将衍射图压缩为512×512像素图像,适配计算机视觉模型。


技术验证与可靠性
1.        数据一致性
o        人工验证200个随机衍射图谱,与Mercury软件模拟结果高度一致(图3展示典型匹配案例)。
o        结构分布与COD高度相似(Kullback-Leibler散度:原子分布<6.58×10⁻⁴,空间群分布<9.84×10⁻³)。
2.        径向图像有效性
o        实验证明:使用径向图像的模型性能显著优于一维数据(表2 vs 表1)。
o        改进测试:1/4圆径向图像进一步将Swin V2模型的Top-5准确率提升至83.82%。
3.        局限性说明
o        模拟与实验差异:未包含背景噪声/可变峰宽,导致模型在20组实验数据测试中Top-5准确率最高仅35%。
o        波长限制:仅支持Cu靶,未涵盖中子衍射等其他辐射类型。


应用与性能基准
•        空间群预测任务:
o        最佳模型(Swin V2 + 预训练)在测试集达45.32%准确率(表2),较传统MLP/DRF模型提升>10%。
o        模型复杂度(GFLOPs)与准确率呈正相关。


数据获取与使用
•        访问地址:Science Data Bank (DOI: 10.57760/sciencedb.09755)。
•        文件结构:
o        JSON文件:晶体结构ID、衍射图谱向量、晶胞参数等。
o        PNG图像:径向图像(按ID命名)。
•        工具支持:提供数据加载教程与处理代码(GitHub: BCV-Uniandes/SIMPOD)。


研究价值
SIMPOD填补了公开、多样化的粉末衍射机器学习基准空白,为以下任务提供支持:
1.        晶体参数预测(空间群/晶胞/原子坐标)
2.        晶体结构生成
3.        计算机视觉与衍射模式的跨模态学习


引用:
Sergio Rincón, Gabriel González, Mario A. Macías1 & Pablo Arbeláez, a new benchmark for machine learning applied to powder X-ray diffraction, Scientific Data | (2025) 12:1186


您需要登录后才可以回帖 登录 | 注册

本版积分规则

  • 微信小程序
  • 公众号
  • 微信客服

关于我们|Archiver|APP客户端|小黑屋|物质结构社区 ( 闽ICP备2024081439号-1 )

GMT+8, 2025-9-8 15:45 , Processed in 0.014555 second(s), 5 queries , Redis On.

Powered by Discuz! X5.0

© 2001-2025 Discuz! Team.

在本版发帖
科研需求联系客服
添加微信客服
返回顶部
快速回复 返回顶部 返回列表