近日,北京大学发布了一份名为“2025年DeepSeek-R1-Kimi1.5及类强推理模型开发解读报告”的研究报告。这份报告深入探讨了DeepSeek-R1和Kimi1.5等大语言模型在强化学习加持下的强推理慢思考范式新边界,并对这些模型的技术细节、社会经济效益以及未来发展方向进行了全面剖析。报告指出,随着模型尺寸的增大,预训练阶段参数规模增加带来的边际收益递减,而基于强化学习的后训练成为了提升模型推理能力的下一个突破点。报告中不仅展示了DeepSeek-R1在数学代码任务上的卓越表现,还讨论了从文本模态到多模态的推理边界拓展,以及如何通过模态穿透赋能智能边界拓展。这份报告是理解当前大语言模型发展趋势和未来方向的重要资料,其中包含了大量关于模型开发、技术对比和未来展望的有价值信息。
在探索人工智能的深度与广度时,我们常常被一个问题所困扰:如何让机器像人类一样思考?这份《DeepSeek-R1-Kimi1.5及类强推理模型开发解读报告》为我们揭开了强推理模型的神秘面纱,展示了人工智能在模拟人类思维过程中的最新进展。
报告首先介绍了DeepSeek-R1,这是一个在强化学习加持下,能够进行强推理慢思考的模型。它通过后训练扩展律,即在训练阶段增加计算量,显著提升了模型的数学推理能力。DeepSeek-R1在AIME2024上的成绩达到了79.8%,与OpenAI-o1-1217相当,这标志着开源社区在与闭源大模型的竞争中迈出了关键性一步。
DeepSeek-R1 Zero的创新之处在于,它完全依赖于强化学习,而不使用人类专家标注的监督微调。这种自主学习的方式节省了大量的标注成本,并且让模型能够自由地探索解决问题的路径。在训练过程中,模型逐渐展现出长文本推理及长链推理能力,甚至表现出自我修复和启发式搜索的能力。
报告中提到的GRPO算法是DeepSeek-R1的另一大亮点。GRPO通过构建多个模型输出的群组,并计算群组内的相对奖励来估计基线,避免了传统策略优化算法中需要使用与策略模型大小相同的评论模型。这种方法大幅度降低了RL训练的计算成本,同时还能保证模型能够有效地学习到策略。
在社会和经济效益方面,DeepSeek-R1的低成本高质量语言模型为行业提供了新的解决方案。它通过“API+本地化知识库”或“提示工程+检索增强”的混合方案,实现了业务场景的快速适配与轻量定制。这种高性价比、低门槛的大模型服务模式,将吸引更多初创团队涌入赛道,推动行业生态的繁荣发展。
技术对比讨论中,报告详细分析了STaR-based Methods与RL-based Methods在强推理路径上的差异。STaR方法通过反复自我迭代和监督微调,将思考过程建模到语言模型的Next Token Prediction中。而PureRL则直接利用RL激活基座模型的推理潜力,通过构建rule-based reward和额外的RL Data设计,激活模型的内部推理能力。
报告还提出了未来技术方向的展望,包括长思维链可解释性、模态扩展+模态穿透进一步拓展强推理边界、强推理能力赋能Agentic发展以及强推理模型的监管和安全保证。这些方向不仅关注技术的深度发展,也关注技术的社会责任和伦理问题。
文章的灵感来源于这份报告,它为我们提供了一个全新的视角来理解人工智能的强推理能力。除了这份报告,还有许多同类型的报告也非常有价值,推荐阅读。这些报告我们都收录在同名星球,感兴趣的朋友可以自行获取,深入探索人工智能的奥秘。
以上为节选样张,关注公众号【蝉鸣报告】回复领取PDF完整电子版(无广告)。
【蝉鸣报告】每日更新最新硬核报告,覆盖产业报告、全球化、经济报告、趋势等全领域。