浙江加州国际纳米研究院

鉴于科研论文发表数量呈指数级增长，即便是同一研究领域的科学家，也已无法通读所有文献。

近日，德国卡尔斯鲁厄理工学院Thomas Marwitz, Pascal Friederich等在Nature Machine Intelligence上发文，研究探索利用大语言模型，从材料科学领域的论文摘要中，提取核心概念与语义信息，以识别人类尚未察觉的关联，并提出了具有启发性的近期及中期未来研究方向。

研究证明，相比于自动化关键词提取方法，大语言模型能更高效地提取概念，并构建起作为科学文献抽象表征的概念图谱。基于历史数据，还训练了机器学习模型，用于预测概念的新兴组合，即新的研究思路。

研究表明，融合语义概念信息，可提升预测性能。通过与领域专家进行个性化模型建议的定性访谈，验证了该模型的实用性。结果表明，该模型通过预测尚未被探索的创新概念组合，激发材料科学家的创造思维。

Predicting new research directions in materials science using large language models and concept graphs.

基于大语言模型与概念图谱，材料科学新研究方向预测

图1：标注数据的生成。

图2：材料科学图谱。

图3：在测试集上，预测模型的性能指标。

图4：从摘要中，计算概念嵌入的示例。

首先从OpenAlex数据库中，筛选了1955年至2022年间发表的约22万篇材料科学相关论文。以100篇人工标注的摘要为基础，微调Llama-2-13B大语言模型并迭代优化，最终从海量文本中，提取出约137万个核心概念（如“机械应力”、“氧化石墨烯”），构建了包含1300万条边的动态演化概念图。机器学习：混合模型通过加权融合图神经网络（GraphSAGE，用于捕捉节点局部结构）和语义嵌入（MatSciBERT，用于理解概念内涵）的预测结果，在预测2020-2022年间新形成的概念链接时，取得了最优性能（AUC 0.9433）。

文献链接

Marwitz, T., Colsmann, A., Breitung, B. et al. Predicting new research directions in materials science using large language models and concept graphs. Nat Mach Intell (2026). https://doi.org/10.1038/s42256-026-01206-y

本文译自Nature。

来源：今日新材料

走进研究院

《Nature Machine Intelligence》：AI+新材料，大语言模型-材料科学研究方向预测