易特艾弗网络科技

聚焦

快手Kwaipilot团队全面复现DeepSeek-R1-Zero数学代码能力,训练步数仅需其110

时间:2025-04-24 17:44 浏览:

  4月23日,快手Kwaipilot团队发布全新大模型训练方法SRPO并宣布开源。该方法仅用 GRPO 1/10的训练成本,在数学与代码双领域基准测试中实现性能突破:AIME2024 得分50,LiveCodeBench 得分41.6,成为业界首个在两大专业领域同时复现DeepSeek-R1-Zero 的方法。

  技术报告中,快手Kwaipilot团队实现了一种两阶段训练范式,有效解决数学和代码之间内在的响应长度冲突问题。实验表明,两阶段训练在数学和编程领域均表现出优异的结果。该模型在解决数学问题时始终如一地生成详细的逐步推理模式,并在处理编程任务时生成结构化的推理模式。

  

  在训练的中后期阶段,快手 Kwaipilot 团队创新性地引入了历史重采样实现动态采样,确保了在每个训练步骤中梯度更新始终有效,从而直接提高了信息梯度的比例。与DAPO中提出的Dynamic Sampling方法相比,History Resampling显著提高了计算效率,响应长度增长也更加稳定。

  更令人惊喜的是,在训练过程中模型的自我反思、纠正和回溯频率逐渐增加,在训练后期,模型已经会借助程序性思维进行自我纠错和多次尝试,掌握了广泛思考和综合运用多种代码思维进行问题求解的能力。

  目前,快手Kwaipilot团队已将SRPO-Qwen-32B模型开源,希望这一成果能够为社区在构建更强大的推理模型方面提供有力支持。未来,他们将持续探索数据与模型的扩展、更高效的强化学习算法以及SRPO在更广泛的推理场景中的应用。