本帖最后由 casjxm 于 2025-8-4 15:14 编辑
1. 平台目标与背景 Geom3D旨在解决分子几何表示学习的标准化评测问题: - 科学挑战:分子(小分子、蛋白质、晶体)的3D几何结构蕴含关键物理化学性质,但对称性(如SE(3)-等变性)建模复杂,且科学界与机器学习界存在知识鸿沟。
- 平台使命:提供统一的评测基准,消除领域壁垒,指导模型选择与优化。
2. 技术框架与创新 2.1 对称性几何表示的统一分类 Geom3D首次将对称性模型分为三类: - 不变模型(Invariance)
- 仅处理旋转平移不变的标量特征(如原子距离、键角)。
- 代表方法:SchNet、DimeNet++、SphereNet。
- 球面框架等变模型(Spherical Frame Basis)
- 利用球谐函数投影坐标,支持高阶对称性表示(如SO(3)-等变)。
- 代表方法:TFN、SE(3)-Transformer、Equiformer。
- 向量框架等变模型(Vector Frame Basis)
- 通过局部向量框架投影坐标,高效处理3D点云。
- 代表方法:EGNN、PaiNN、MoleculeSDE。
2.2 多领域统一评测平台 [td] 类型 | 数据集 | 任务示例 | 小分子 | QM9(量子属性)、MD17(分子动力学) | 能量/力预测、结合亲和力预测 | 蛋白质 | LBA/LEP(配体结合)、EC/Fold | 酶功能分类、蛋白质折叠分类 | 晶体材料 | MatBench、QMOF | 能带隙、弹性模量预测 |
- 预处理适配:针对周期性晶体结构设计数据增强方法。
2.3 几何预训练与任务拓展 - 预训练方法:支持14种策略,包括:
- 自监督:GeoSSL(去噪互信息最大化)、3D InfoGraph。
- 多模态:GraphMVP(2D拓扑与3D几何对齐)。
- 任务扩展:支持力场预测、构象生成、跨域迁移学习等。
2.4 工程优化与可复现性 - 预处理技巧:如晶体周期性数据增强(图6)、分子动力学数据归一化(图5)。
- 超参数标准化:统一学习率调度(如Cosine Annealing)、随机种子控制。
3. 关键实验结果与洞见 3.1 几何表示的重要性 - QM9量子属性预测:几何模型(如PaiNN)显著优于1D/2D模型(MAE降低1个数量级)。
- 案例:在MD17分子力场预测中,数据归一化使力预测误差平均降低30%。
3.2 模型表现对比 - 无单一最优模型:不同任务适配不同架构:
- 小分子:PaiNN、GemNet在量子任务领先。
- 蛋白质:CDConv在折叠分类任务最优。
- 晶体:Gathered数据增强效果更佳。
3.3 预训练有效性
- GeoSSL与MoleculeSDE在迁移学习中表现最佳,尤其在数据受限场景提升显著。
4. 平台价值与开源 - 科学价值:
- 为计算化学、结构生物学、材料科学提供模型选择指南。
- 推动几何学习与多模态(如文本-分子)结合的跨域研究。
- 开源资源:
- 代码托管于GitHub,集成16个几何模型、14种预训练方法、46个数据集。
- 标准化数据预处理流程与超参数配置。
5. 未来方向 - 扩展任务:添加Atom3D、OC20等数据集。
- 多模态融合:探索几何结构与文本描述的联合建模(如蛋白质设计)。
- 计算优化:降低高阶等变模型的计算开销(如GemNet的O(nk3)复杂度)。
Geom3D通过统一框架、严谨评测与工程优化,成为连接机器学习与科学发现的桥梁,推动几何表示学习在科学计算中的落地应用。
引用: Shengchao Liu, weitao Du, Yanjing Li,Zhuoxinran Li, Zhiling Zheng, Chenru Duan, Zhi-Ming Ma, Omar M. Yaghi, AnimaAnandkumar, Christian Borgs, Jennifer T Chayes, Hongyu Guo, Jian Tang,Symmetry-Informed Geometric Representation for Molecules, Proteins, andCrystalline Materials, 2023
|