返回列表 发布新帖
查看: 114|回复: 0

[AI材料预测] CatGPT催化剂设计AI模型

231

帖子

517

积分

53

金币

中级会员

积分
517
发表于 2025-8-5 13:34:11 | 查看全部 |阅读模式
CatGPT(Catalyst Generative Pretrained Transformer)是一种基于Transformer架构的生成式语言模型,专门用于催化剂结构的发现与设计。由Dong Hyeon Mok和Seoin Back团队开发,该模型利用了自然语言处理技术,将催化剂结构编码为文本序列,实现了高效、可扩展的催化剂生成。

1. 模型架构与开发背景
CatGPT的核心架构基于GPT-2(Generative Pretrained Transformer 2),这是一种自回归语言模型,通过预测序列中下一个令牌的概率生成完整结构。模型训练使用了Open Catalyst 2020数据集(OC20-S2EF 2M dataset),包含200万个催化剂结构(包括表面和吸附原子)。催化剂结构被表示为文本序列,格式为:
C=(l1,l2,l3,θ1,θ2,θ3,e1,x1,y1,z1,…,eN,xN,yN,zN),其中,l1−3和θ1−3是晶格参数的长度和角度,ei为原子符号,(xi,yi,zi)为原子分数坐标。令牌化采用坐标级策略(如“0.000”表示特定数值),原子顺序按块体、表面、吸附物排列,以保留结构信息。
工作流程包括预训练、微调和验证:
•        预训练:在OC20数据集上训练30个epoch,使用12层自注意力、8头注意力机制,嵌入维度512。
•        微调:针对特定任务(如2e-ORR催化剂),利用小规模数据集调整模型权重。
•        异常检测:结合BERT模型,通过二分类(标签0表示异常,1表示有效)评估结构有效性。异常包括“结构不完整”(随机移除20-80%原子)和“尺度不匹配”(晶格参数扩大150-200%),检测准确率达96%。

2. 核心创新:解决生成挑战
CatGPT在生成催化剂时面临原子重叠(structural invalidity)问题,导致仅68.6%的结构通过结构有效性检验。为此,团队提出 CatGPT-BP(Bypass方法):
•        机制:利用自回归模型的序列特性,在将字符串转换为3D结构时,跳过与现有原子距离过近的新原子(距离阈值0.5 Å),避免重叠。
•        效果:结构有效性提升至100%,催化剂有效性仅轻微下降(从91.7%到90.6%),平衡了生成质量与多样性。
此外,模型对 排列不变性 敏感:原子顺序包含结构信息,随机洗牌原子顺序会降低性能(训练损失增加),突显了序列表示的重要性。

3. 性能评估与指标
CatGPT的生成能力通过三类指标评估:
•        有效性指标:
o        生成有效性(Generation Validity):字符串成功转换为3D结构的比例(99.7%)。
o        结构有效性(Structural Validity):原子无重叠的比例(CatGPT-BP达100%)。
o        催化剂有效性(Catalyst Validity):异常检测模型判定的有效比例(90.6%)。
•        覆盖率和性质分布:
o        覆盖率(Coverage):使用CrystalNN(结构指纹)和Magpie(成分指纹)计算相似度。Recall和Precision均接近1.0,表明生成结构高度覆盖真实催化剂分布。
o        性质分布(Property Distribution):通过Earth Mover's Distance(EMD)评估密度和元素数量分布,CatGPT-BP的EMD值较低,显示与真实数据高度一致。
•        温度(Temperature):控制生成多样性。低温(t=0.5)生成更集中但多样性低(Uniqueness=5.4%);高温(t=2.0)增加多样性(Uniqueness=73.3%)但有效性下降(Catalyst Validity=84.4%)。
•        查询优化:输入晶格参数作为提示,可提高唯一性和新颖性(Uniqueness=99.1%),但外推能力弱(60%结构无效),需进一步改进。

4. 应用案例:2e-ORR催化剂发现
CatGPT作为基础模型,通过微调(fine-tuning)实现特定任务生成:
•        微调数据集:1,721个二元合金催化剂(2e-ORR数据集),遵循组成规则(含亲氧/疏氧元素)和吸附规则(活性位点为亲氧原子)。
•        结果:微调后模型在组成和吸附有效性上均超95%,覆盖率Recall达97.1%,证明其学习规则能力。
•        新催化剂验证:生成1,000个结构,筛选出858个有效样本,133个新颖结构。通过MLP优化和DFT计算(图3),10个结构满足活性和选择性标准,其中5个在ΔGOOH∗=4.22±0.2 eV范围内表现优异。
该案例证实CatGPT能生成未见于数据库的新型催化剂,加速了电化学制H₂O₂的催化剂发现。

5. 挑战与局限
尽管CatGPT表现优异,仍存在以下限制:
•        块体恢复不足:模型生成表面催化剂结构,但无法重建块体晶体(如空间群、形成能),限制了新材料提案。
•        元素多样性有限:生成依赖训练数据分布,难以探索新元素组合,需结合提示工程(prompt engineering)或填充任务(infilling tasks)扩展化学空间。
•        计算依赖:验证需MLP和DFT计算,耗时较长(如10个结构优化需24小时)。
未来方向包括开发多任务模型、结合扩散模型增强多样性,以及利用LLM的提示灵活性提升泛化能力。

6. 结论与意义
CatGPT是首个将自回归语言模型应用于催化剂生成的框架,通过GPT-2架构和独创的Bypass方法,解决了原子重叠等挑战。作为基础模型,其微调能力(仅需约2,000数据点)实现了特定催化剂的高效生成,并通过实验验证了新结构的活性。这标志着语言模型在材料发现中的潜力:不仅可作为生成工具,还为催化剂设计提供了可扩展的平台。代码和数据集已在GitHub开源(https://github.com/SeoinBack/CatGPT),推动社区进一步探索。

引用:
Dong Hyeon Mok and Seoin Back, Generative Language Model for Catalyst Discovery, 2024, https://doi.org/10.1021/jacs.4c11504

您需要登录后才可以回帖 登录 | 注册

本版积分规则

  • 微信小程序
  • 公众号
  • 微信客服

关于我们|Archiver|APP客户端|小黑屋|物质结构社区 ( 闽ICP备2024081439号-1 )

GMT+8, 2025-9-9 05:54 , Processed in 0.014319 second(s), 5 queries , Redis On.

Powered by Discuz! X5.0

© 2001-2025 Discuz! Team.

在本版发帖
科研需求联系客服
添加微信客服
返回顶部
快速回复 返回顶部 返回列表