2. 预训练策略与数据
• 语料来源:
o 从200万篇材料科学期刊论文(含61百万段落)构建语料库,覆盖材料科学核心文献。
o 经筛选后保留50百万段落(88亿Token),排除过短/过长文本(<20或>510 Token)。
• 训练任务:
o 仅采用掩码语言建模(MLM) 任务(未使用NSP任务),聚焦材料文本语义学习。
o 训练耗时约1个月(8×NVIDIA V100 GPU),代码与模型权重已开源96,97。
• 分词优化:
o 训练专用WordPiece分词器(词汇量30,522),适配材料科学术语(如化学式、元素价态)。
3. 性能优势与实验验证
NER任务表现
• 整体性能:在三个材料科学NER数据集(固态材料、掺杂、金纳米颗粒)上均超越其他模型:
o F1分数提升:较BERT提高1-12%,较SciBERT提升1-3%。
引用:
Trewartha, A. et al. Quantifying the advantage of domain-specific pre-training on named entity recognition tasks in materials science. Patterns 3, 2022, DOI: 10.1016/j.patter.2022.100488