本学期学术活动

大模型如何学会推理——及其在跨学科科学百科构建中的应用

2025-11-18    点击:

报告题目: 大模型如何学会推理——及其在跨学科科学百科构建中的应用

报 告 人:陈锟,中国科学院理论物理研究所

报告时间:2025年11月20日(周四)14:00

报告地点:物理楼W105

内容摘要:人类对世界的理解依赖于严密的逻辑推理,但传统的知识载体——教科书、论文与百科——往往只给出压缩后的结论,而将“推理过程”这部分“知识的桥梁”大幅省略,使得结论不仅难以校验,还丢失了领域交叉的信息。与此同时,新一代具有强大推理能力的大语言模型(LLM)也是在这种被压缩的互联网语料上训练出来的:它们在参数中记忆了海量相关性与事实,却很少直接接触到完整、显式的推理链条。因此,一个核心问题是:LLM 推理能力究竟是如何在这种压缩后的语料上涌现出来的?我们又能否利用LLM,反过来服务于人类科学知识的整理与重构?本报告首先以DeepSeek/Kimi等工作的最新进展为背景,讨论通过可验证奖励强化学习(RLVR),LLM如何在“System 1”直觉系统的的基础上,涌现出类似“System 2”的通用推理能力。我们结合理论与实验,提出RLVR训练可以在隐式的语义空间诱导出平均度数约为 2 的近树状结构,通过逻辑与因果律将知识点整合成一个稀疏的“概念网络(concept web)”。这一物理图像为训练过程中的一系列实验现象提供相对统一的解释,包括快/慢学习阶段、推理链长度先缩短后再延长的演化行为,以及监督微调中的灾难性遗忘;从而为理解“大模型如何学会长思维链推理”提供了一个有启发性的统计物理视角。在此基础上,报告进一步讨论如何利用长思维链来“解压缩”人类科学知识,从而超越互联网语料。我们构建了一个覆盖数学、物理、化学、生物、工程、计算科学多个学科、约数百万可验证问答对的长链推理知识库,并在其之上实现了反向知识搜索与高质量知识合成,最终形成一个约20万条目、具备强交叉学科能力和显著低幻觉率的科学百科系统——SciencePedia。

报告人简介:陈锟,中国科学院理论物理研究所副研究员。致力于研究大语言模型逻辑推理能力的涌现问题,并探索通用人工智能在基础科学研究中的新范式。他在中国科学技术大学获得学士学位后,在合肥微尺度国家实验室和美国马萨诸塞州立大学分别获得了量子信息与凝聚态物理的博士学位。博士后期间,他受西蒙斯基金会资助,在罗格斯大学和Flatiron研究所深造。陈锟受国家引才计划青年项目支持。任国家重点研发子课题负责人。担任SciencePedia项目的首席科学家。