返回列表 发布新帖
查看: 83|回复: 0

[AI结构预测] PDF中提取关键结构基元模型ML-MotEx

231

帖子

517

积分

53

金币

中级会员

积分
517
发表于 2025-8-5 09:46:59 | 查看全部 |阅读模式
本帖最后由 casjxm 于 2025-8-5 09:48 编辑

ML-MotEx(Machine Learning-based Motif Extractor) 是一种结合可解释机器学习与对分布函数(PDF)分析的新方法,用于从纳米材料的散射数据中自动化提取关键结构基元(structural motifs)。


1. 核心目标
传统PDF分析依赖人工选择结构模型进行数据拟合,效率低且易受主观偏差影响。ML-MotEx旨在解决两大瓶颈:
•        自动化筛选:从海量候选结构中快速识别与实验数据匹配的局部结构基元。
•        可解释性:量化每个原子/结构特征对拟合质量的贡献,避免“黑箱”决策。


2. 算法流程(四步框架)
步骤1:生成候选结构目录(Catalog Generation)
•        输入:一个包含潜在基元的起始结构(如晶体单元、大分子簇)。
•        操作:通过“原子置换”策略生成子结构:
o        选择特定原子类型(如重原子)进行随机保留/删除(0/1编码)。
o        移除不满足键长阈值的配位原子(如氧原子)。
•        输出:数千至百万级候选结构(仅需部分子集,非穷举)。
步骤2:PDF拟合与质量评估(Fitting & Rwp Calculation)
•        拟合方法:使用DiffPy-CMI软件计算每个候选结构的PDF,并通过Debye算法拟合实验数据。
•        质量指标:以加权残差(Rwp)量化拟合优度。
步骤3:机器学习预测(GBDT模型训练)
•        模型选择:梯度提升决策树(XGBoost)回归模型。
•        输入特征:
o        原子存在状态(0/1二进制向量)。
o        结构尺寸(原子总数)。
•        任务:预测候选结构的Rwp值。
•        优化:通过贝叶斯优化调整超参数(如学习率、树深度),80%数据训练,20%测试。
步骤4:可解释性分析(SHAP值量化贡献)
•        SHAP原理:基于博弈论分配每个特征对Rwp预测的影响。
•        原子贡献值(Atom Contribution Value):
o        计算原子存在(kept)与缺失(removed)时的平均SHAP值之差: Atom Contribution=SHAPavg-kept−SHAPavg-removed
o        负值:原子存在降低Rwp(应保留)。
o        正值:原子存在增加Rwp(应移除)。
•        置信因子(Confidence Factor):
o        原子贡献值与其标准误的比值,评估结果可靠性。


3. 关键创新
•        效率提升:避免**枚举(e.g.,24原子模型需3×10⁶年计算 → ML-MotEx仅需分钟级)。
•        解释性输出:SHAP值揭示局部结构基元的化学合理性(如C60案例中识别60个核心碳原子)。
•        适应性:支持多种体系(无序材料、溶液簇、纳米颗粒),如:
o        氧化钼:识别[MoO₆]八面体三聚体(Triad)。
o        钨酸盐Keggin簇:从不同晶胞中一致提取W₁₂O₄₀基元。


4. 局限性与展望
•        依赖起始模型:需包含目标基元(可通过结构数据库预筛选)。
•        扩展性:已测试≤256原子体系,未来可结合DFT优化物理合理性。
•        应用场景:实时分析时间分辨PDF数据(如反应中间体追踪),集成至云平台(PDFitc.org)。


参考文献:
Anker, Andy S.; Kjær, Emil T. S.; Juelsholt, Mikkel; Christiansen, Troels Lindahl; Skjærvø, Susanne Linn; Jørgensen, Mads Ry Vogel; Kantor, Innokenty; Sørensen, Daniel Risskov; Billinge, Simon J. L.; Selvan, Raghavendra, Extracting structural motifs from pair distribution function data of nanostructures using explainable machine learning, 10.1038/s41524-022-00896-3

代码开源:GitHub - ML-MotEx




您需要登录后才可以回帖 登录 | 注册

本版积分规则

  • 微信小程序
  • 公众号
  • 微信客服

关于我们|Archiver|APP客户端|小黑屋|物质结构社区 ( 闽ICP备2024081439号-1 )

GMT+8, 2025-9-8 16:14 , Processed in 0.014329 second(s), 5 queries , Redis On.

Powered by Discuz! X5.0

© 2001-2025 Discuz! Team.

在本版发帖
科研需求联系客服
添加微信客服
返回顶部
快速回复 返回顶部 返回列表