返回列表 发布新帖
查看: 12|回复: 0

[AI材料预测] Matini-Net材料信息学机器学习操作框架

228

帖子

494

积分

53

金币

初级会员

积分
494
发表于 昨天 11:08 | 查看全部 |阅读模式
1. 框架定位与核心目标
Matini-Net 是一个 材料信息学研究的机器学习操作框架,旨在解决现有平台(如 Matminer、Automatminer)的两大局限:
•        仅支持单模态模型(特征或图结构模型);
•        缺乏端到端功能整合(数据检索、可视化、模型解释性)。
核心目标是为深度学习经验有限的研究者提供自动化工具,加速材料发现流程,同时提升模型可解释性。


2. 技术架构与工作流程
Matini-Net 包含 4 个核心组件,构成完整 MLOps 流水线,工作流程分为五阶段:
1.        数据获取:从公共数据库(Materials Project、OQMD、MatBench)解析并存储材料结构与属性;
2.        特征工程:生成材料描述符(详见表 S2);
3.        模型构建:支持五种神经网络架构(见第 3 节);
4.        超参优化:通过 Optuna 自动调优;
5.        解释性分析:SHAP 评估特征重要性。


3. 模型设计灵活性
Matini-Net 支持 三类神经网络模块组合,形成 五种架构:
•        GNN:纯图神经网络(如 CGCNN、MEGNet);
•        FNN:纯特征神经网络;
•        GFNN:特征模型 + 固定参数的图特征(预计算图嵌入);
•        DirectNN/MultiNN:特征与图模型联合训练(参数可学习),支持多模态融合。


4. 自动化能力
4.1 特征工程优化
针对 Matminer 特征生成器的八大问题(如空值、高计算成本、冗余特征),Matini-Net 通过以下策略优化:
•        过滤无效特征:剔除空值率 >20% 或生成文本/无限值的描述符;
•        计算效率控制:设置超时限制(60s/样本),可选跳过耗时特征;
•        降维处理:移除高维特征(如 BagofBonds 维度 >20k)和常量特征。
最终保留 806 个有效特征)。
4.2 超参数自动调优
集成 Optuna 框架实现超参搜索:
•        定义搜索空间(如 GNN 类型、层数、维度);
•        以目标指标(如 MAE)优化模型;
•        支持超参重要性分析和优化历史可视化。
4.3 模型解释性
通过 SHAP 分析实现预测可解释:
•        量化特征全局/局部重要性;
•        可视化关键特征与目标属性的关联,如:
o        机械性能预测:Sc 原子分数最关键;
o        热力学/电子性质:元素属性(如电负性、价轨道)主导。


5. 应用验证与性能
在 MatBench 基准数据集的 5 项回归任务上验证:
任务                                 样本量      最佳模型 (Matini-Net)            R²                MAE
声子频率 (phonons)        1,265        GFNN-MPNN-Dropna          0.9603        56.25 cm⁻¹
剪切模量 (log_gvrh)        10,987        MultiNN-MPNN-Dropna     0.8486        0.1046 GPa
体模量 (log_kvrh)           10,987        GFNN-CGCNN-Dropna        0.8748        0.0820 GPa
钙钛矿形成能                  18,928        SchNet (GNN)                       0.9807        0.0753 eV
带隙 (mp_gap)               106,113        MultiNN-MPNN-Fillna        0.8862        0.2977 eV
关键结论:
•        多模态模型优势:GFNN/MultiNN 在 80% 任务中占据 Top10 模型;
•        空值处理策略:丢弃空值(Dropna)普遍优于填充零值(Fillna);
•        用户友好性:通过 <10 行 Python 代码实现全流程。


6. 创新意义与局限
创新点:
•        首个整合 多模态架构(特征+图模型)的材料 MLOps 框架;
•        提供 自动化流水线(特征工程→超参优化→解释分析);
•        解决现有工具功能割裂问题。
局限与展望:
•        当前仅支持结构/成分数据,未来拟扩展至图像/光谱等多源数据;
•        性能虽优但略低于 SOTA 专用模型(见 Table 1 的 MAE 对比)。
Matini-Net 代码已开源(GitHub: mhlee216/Matini-Net),为材料科学家提供低门槛、高灵活性的深度学习工具。


引用:
Myeonghun Lee, Taehyun Park, and Kyoungmin Min, Matini-Net: Versatile Material Informatics Research Framework for Feature Engineering and Deep Neural Network Design, J. Chem. Inf. Model. 2024, 64, 8770−8783



您需要登录后才可以回帖 登录 | 注册

本版积分规则

  • 微信小程序
  • 公众号
  • 微信客服

关于我们|Archiver|APP客户端|小黑屋|物质结构社区 ( 闽ICP备2024081439号-1 )

GMT+8, 2025-8-7 10:19 , Processed in 0.014611 second(s), 5 queries , Redis On.

Powered by Discuz! X5.0

© 2001-2025 Discuz! Team.

在本版发帖
科研需求联系客服
添加微信客服
返回顶部
快速回复 返回顶部 返回列表