DeepSeek 联手清华大学开展研究: 通过创新奖励模型推理技术，显著增强系统的可扩展性-星火智游网

近日，DeepSeek 和清华的研究者发布新论文，探讨了奖励模型的推理时 Scaling 方法，让 DeepSeek R2似乎更近一步。目前，强化学习在大语言模型的大规模后训练阶段广泛应用，但面临为大语言模型获取准确奖励信号的挑战。

研究者发现，采用点式生成式奖励建模（GRM）能提升模型适应能力和推理阶段可扩展性。为此，他们提出自我原则点评调优(SPCT)学习方法，经此训练得到 DeepSeek - GRM 模型，如基于 Gemma -2-27B 训练的 DeepSeek - GRM -27B。实验显示，SPCT 显著提高了 GRM 的质量和可扩展性，在多个基准测试中表现优于现有方法和模型。此外，研究者还引入元奖励模型(meta RM)引导投票过程，提升扩展性能。

SPCT 方法分为两个阶段。一是拒绝式微调作为冷启动阶段，让 GRM 适应不同输入类型并以正确格式生成原则与点评内容。研究者采用点式 GRM，还引入提示式采样提高预测奖励与真实奖励的一致性。二是基于规则的在线强化学习阶段，采用基于规则的结果奖励，鼓励 GRM 生成更好的原则与点评内容，提升推理阶段可扩展性。

为提升 DeepSeek - GRM 性能，研究团队探索推理时扩展策略。通过生成奖励进行投票，扩大奖励空间，提升最终奖励质量。同时，训练元奖励模型引导投票，过滤低质量样本。实验结果表明，DeepSeek - GRM -27B 整体性能出色，通过推理时扩展还能进一步提升。消融研究显示在线训练对 GRM 很重要，原则生成对模型性能也至关重要。此外，研究还证明了 DeepSeek - GRM -27B 在推理时扩展上的有效性，优于单纯扩大模型规模。

划重点:

💡DeepSeek 和清华研究者提出自我原则点评调优（SPCT）方法及引入元奖励模型(meta RM)，提升奖励模型推理时可扩展性，构建出 DeepSeek - GRM 系列模型。

🧪SPCT 分拒绝式微调与基于规则的在线强化学习两阶段，提高了 GRM 质量和扩展性，使 DeepSeek - GRM -27B 在基准测试中表现优异。

📈研究团队探索推理时扩展策略，通过生成奖励投票和元奖励模型引导投票提升性能，证明 DeepSeek - GRM -27B 推理时扩展有效性优于扩大模型规模。

论文地址:

https://arxiv.org/abs/2504.02495

文章详情

最新星火攻略

最新星火智能

最新星火游戏