SIMPOD(Simulated Powder X-ray Diffraction Open Database)是一个首个公开的粉末X射线衍射机器学习基准数据库,旨在解决现有数据集私有化、结构单一性问题。该数据库包含467,861个晶体结构及其模拟衍射数据,源自开放资源Crystallography Open Database(COD),覆盖矿物、金属有机框架、有机化合物等多样化结构。
核心特性与创新
1. 数据规模与多样性
o 来源:整合COD截至2023年中期的晶体结构(筛选4-256原子的结构以平衡难度与计算成本)。
o 组成:包含空间群、晶胞参数、原子坐标等完整晶体学信息(JSON格式),以及一维衍射图谱和二维径向图像(PNG格式)。
o 多样性验证:涵盖所有230个空间群,元素覆盖周期表多数原子(图4a-b),有机化合物占比显著(H/C/N/O原子超10⁵个)。
2. 双模态数据设计
o 一维衍射图谱:模拟2θ范围5°–90°(10,824个强度点),Cu靶波长(1.5406 Å),峰值宽度0.01°,强度归一化至[0,1]。
o 二维径向图像:通过数学变换将衍射图压缩为512×512像素图像,适配计算机视觉模型。
技术验证与可靠性
1. 数据一致性
o 人工验证200个随机衍射图谱,与Mercury软件模拟结果高度一致(图3展示典型匹配案例)。
o 结构分布与COD高度相似(Kullback-Leibler散度:原子分布<6.58×10⁻⁴,空间群分布<9.84×10⁻³)。
2. 径向图像有效性
o 实验证明:使用径向图像的模型性能显著优于一维数据(表2 vs 表1)。
o 改进测试:1/4圆径向图像进一步将Swin V2模型的Top-5准确率提升至83.82%。
3. 局限性说明
o 模拟与实验差异:未包含背景噪声/可变峰宽,导致模型在20组实验数据测试中Top-5准确率最高仅35%。
o 波长限制:仅支持Cu靶,未涵盖中子衍射等其他辐射类型。
应用与性能基准
• 空间群预测任务:
o 最佳模型(Swin V2 + 预训练)在测试集达45.32%准确率(表2),较传统MLP/DRF模型提升>10%。
o 模型复杂度(GFLOPs)与准确率呈正相关。
数据获取与使用
• 访问地址:Science Data Bank (DOI: 10.57760/sciencedb.09755)。
• 文件结构:
o JSON文件:晶体结构ID、衍射图谱向量、晶胞参数等。
o PNG图像:径向图像(按ID命名)。
• 工具支持:提供数据加载教程与处理代码(GitHub: BCV-Uniandes/SIMPOD)。
引用:
Sergio Rincón, Gabriel González, Mario A. Macías1 & Pablo Arbeláez, a new benchmark for machine learning applied to powder X-ray diffraction, Scientific Data | (2025) 12:1186