Nature封面文章：DeepSeek - R1通过强化学习激励的LLM推理 - 专业知识

Nature封面文章：DeepSeek - R1通过强化学习激励的LLM推理

日期：2025-09-19 10:15:15 / 人气：34

通用推理是人工智能领域长期且艰巨的挑战。近年来，大型语言模型（LLMs）和思维链（CoT）提示在基础推理任务上取得显著成功，但依赖大量人工标注示范数据，且模型能力对复杂问题仍不足。本文旨在通过纯强化学习（RL）激励LLM的推理能力，产生无需人工标注的推理轨迹，推动模型在复杂任务上表现更优。

技术方法：采用组相对策略优化（GRPO）算法，基于DeepSeek - V3 - Base训练。设计直观模板让模型先生成推理过程再给答案，使用基于规则的奖励系统计算“准确性奖励”和“格式奖励”，绕过常规的监督微调（SFT）阶段。
显著成效：在美国邀请数学考试（AIME）2024基准上，平均pass@1分数从初始的15.6%跃升至77.9%，借助自一致性解码准确率达86.7%，大幅超过AIME人类参赛者平均水平。在编程竞赛、研究生水平的生物、物理和化学问题上也成绩显著。模型还展现出自我进化行为，如思考时间稳步增长，自然涌现高级推理策略，如反思式推理和对替代方案的系统性探索。
存在问题：可读性较差、语言混用，且在写作和开放领域问答等广泛领域表现受限，因其基于规则的强化学习训练阶段过于专注推理任务。

训练流程：结合拒绝采样、强化学习和监督微调。先收集冷启动数据，进行RL训练提升对话式思维过程与语言一致性；再通过拒绝采样和SFT将推理与非推理数据集纳入，使模型与人类偏好对齐；最后进行第二阶段RL增强模型的有用性与无害性，持续打磨推理能力。
性能提升：在多个基准测试中表现出色。与DeepSeek - R1 - Zero相比，DeepSeek - R1 Dev1在指令跟随方面显著提升，但推理性能在AIME基准上有所下降；DeepSeek - R1 Dev2在高级推理技能基准上显著提升；DeepSeek - R1 Dev3在推理与通用语言生成任务上熟练度提升，最终版DeepSeek - R1在通用指令跟随与用户偏好类基准上提升明显，如AlpacaEval 2.0提升25%，Arena - Hard提升17%。
额外贡献：蒸馏若干更小的模型并公开发布，这些蒸馏模型表现出强大的推理能力，超过仅做指令微调的对应版本，为科研社区理解长链式思维推理模型机制和推动更强大推理模型发展提供资源。

是对经典近端策略优化（PPO）算法的改进，去掉价值网络，通过引入组相对奖励优化策略，使策略在组内相对表现更好，减少训练资源消耗。在训练中，从旧策略中采样一组输出，通过最大化目标来优化策略模型。

基于规则的奖励：对于DeepSeek - R1 - Zero，包含准确性奖励和格式奖励。准确性奖励评估回答是否正确，格式奖励用特定格式要求补充准确性奖励机制，激励模型将推理过程封装在指定标签内，增强可解释性。
基于模型的奖励：对于DeepSeek - R1，在推理类数据采用基于规则的奖励，对通用数据采用基于模型的奖励。基于模型的奖励通过构建奖励模型捕捉人类偏好，针对“有用性”和“无害性”分别评估，训练奖励模型时精选数据，采用合适的训练参数。

解决纯RL方法挑战：对于难以构建可靠奖励模型的任务，如写作，需开发更鲁棒的奖励模型，避免策略模型“钻空子”，未来研究应致力于为复杂、难以验证的问题定义并完善奖励结构。
工具增强型推理：使用工具如编译器、搜索引擎或生物化学试剂等增强推理，拓展机器驱动解决方案的适用范围与准确性。
优化模型性能：解决结构化输出、工具使用、Token效率、语言混用、提示工程和软件工程任务等方面的问题，提升模型综合性能。

这项研究通过纯强化学习激励LLM推理能力，展示了无需人工标注数据也能让模型学习复杂推理模式的潜力，为人工智能推理领域带来新的思路和方法，同时也指出了当前模型的局限性和未来改进方向。

作者：星辉注册登录平台