文章详情

近日,DeepSeek 和清华的研究者发布新论文,探讨了奖励模型的推理时 Scaling 方法,让 DeepSeek R
2025-04-28 09:30:23
文章详情介绍
近日,DeepSeek 和清华的研究者发布新论文,探讨了奖励模型的推理时 Scaling 方法,让 DeepSeek R2似乎更近一步。目前,强化学习在大语言模型的大规模后训练阶段广泛应用,但面临为大语言模型获取准确奖励信号的挑战。
研究者发现,采用点式生成式奖励建模(GRM)能提升模型适应能力和推理阶段可扩展性。为此,他们提出自我原则点评调优(SPCT)学习方法,经此训练得到 DeepSeek - GRM 模型,如基于 Gemma -2-27B 训练的 DeepSeek - GRM -27B。实验显示,SPCT 显著提高了 GRM 的质量和可扩展性,在多个基准测试中表现优于现有方法和模型。此外,研究者还引入元奖励模型(meta RM)引导投票过程,提升扩展性能。
SPCT 方法分为两个阶段。一是拒绝式微调作为冷启动阶段,让 GRM 适应不同输入类型并以正确格式生成原则与点评内容。研究者采用点式 GRM,还引入提示式采样提高预测奖励与真实奖励的一致性。二是基于规则的在线强化学习阶段,采用基于规则的结果奖励,鼓励 GRM 生成更好的原则与点评内容,提升推理阶段可扩展性。
为提升 DeepSeek - GRM 性能,研究团队探索推理时扩展策略。通过生成奖励进行投票,扩大奖励空间,提升最终奖励质量。同时,训练元奖励模型引导投票,过滤低质量样本。实验结果表明,DeepSeek - GRM -27B 整体性能出色,通过推理时扩展还能进一步提升。消融研究显示在线训练对 GRM 很重要,原则生成对模型性能也至关重要。此外,研究还证明了 DeepSeek - GRM -27B 在推理时扩展上的有效性,优于单纯扩大模型规模。
划重点:
💡DeepSeek 和清华研究者提出自我原则点评调优(SPCT)方法及引入元奖励模型(meta RM),提升奖励模型推理时可扩展性,构建出 DeepSeek - GRM 系列模型。
🧪SPCT 分拒绝式微调与基于规则的在线强化学习两阶段,提高了 GRM 质量和扩展性,使 DeepSeek - GRM -27B 在基准测试中表现优异。
📈研究团队探索推理时扩展策略,通过生成奖励投票和元奖励模型引导投票提升性能,证明 DeepSeek - GRM -27B 推理时扩展有效性优于扩大模型规模。
论文地址:
https://arxiv.org/abs/2504.02495
最新星火攻略
更多- 卡内基梅隆大学AI2T创新框架:提升智能体开发效率并推动多领域应用的变革之路
- 斩魂刺杀角色深度剖析及刷图加点技巧全面解析
- 微软首席技术官预测到2030年将有95%的编程代码由人工智能生成,人类开发者的角色将发生重大转变
- Midjourney V7 正式发布:全新模型带来极致美观与更高连贯性体验
- 字节跳动发布DreamActor-M1:全新Runway Act功能推动动画生成技术的突破与发展
- 新一代多模态框架推动蛋白质设计革命,人工智能引领生物科技的未来趋势
- 腾讯元宝「收藏夹」全新升级:跨平台同步随时无缝衔接聊天新体验
- 王者荣耀周年庆的具体日期是什么时候,以及每年的庆祝活动通常安排在几月几号
- Anthropic 启动“人工智能助力校园”计划,推动高等教育与批判性思维的结合与发展
- AI每日动态:即梦3.0内测发布2K商业海报;ChatGPT推出新图像生成功能;饿了么上线“AI智能入驻经理”服务
- 字节跳动发布DreamActor-M1项目,力争在AI角色表演领域超越Runway Act-One技术
- 2025年3月全球生成式AI市场发展趋势综述与分析
- 神鬼世界的游戏类型分析:它是否真的属于3D游戏的范畴?
- Infosys 与 Formula E 合作打造 AI 驱动的数据中心,以提升车迷的互动体验和赛事参与感
- 深度解析QQ飞车紫钻每月礼包内容与价值,探讨其对玩家游戏体验的影响
最新星火智能
更多- Genspark推出全新自动化AI智能代理Super Agent 具备自我思考与工具调用的强大能力
- Claude团队推出全面的Prompt Engineering指南,推动无代码开发浪潮迈向新的高峰
- 多玩魔兽幻化:自由探索装备外观定制的无穷可能性与乐趣
- 维基媒体基金会警告关于 AI 爬虫造成带宽负担的问题,呼吁更多关注与解决
- 火影忍者中的面具男真相大揭秘——带土角色的深度分析与游戏内涵探讨
- OpenAI o3 模型的运算费用激增:单次处理任务的支出从 3000 美元飙升至 30000 美元,成本上涨引发广泛关注
- B站未满十八岁可以接广告吗2024:青少年游戏主播的机遇与挑战,探讨年轻创作者的广告权益
- Gemini-2.5-pro在MathArena评测中展现出色的数学表现,明显领先于其他模型的竞争
- 饿了么全新推出“AI入驻智能经理”功能 新商家上线仅需5分钟轻松搞定
- NotebookLM 新推出的“Discover sources”功能,智能系统自动扫描网络信息源,便捷搜集相关主题资料
- NotebookLM推出全新“Discover Sources”功能:重新定义信息收集与研究体验的创新之道
- OpenAI 强调英国需要前瞻性的版权政策以促进人工智能的健康发展与创新
- 百度推出飞桨框架3.0,推动智能开发在大模型时代的全面升级与创新
- WOW世界任务:欣赏艾泽拉斯的无尽旅程与探索魅力
- 2024年全球移动发行商收入榜单发布,OpenAI首次进入榜单引发关注
最新星火游戏
更多








