文章详情

近日,360智脑团队宣布成功复现Deepseek的强化学习效果,并正式发布开源推理模型 Light-R1-14B-DS。
2025-04-19 01:16:45
文章详情介绍
近日,360智脑团队宣布成功复现Deepseek的强化学习效果,并正式发布开源推理模型 Light-R1-14B-DS。该模型性能表现超越 DeepSeek-R1-Distill-Llama-70B和 DeepSeek-R1-Distill-Qwen-32B,成为业界首款在14B参数规模上实现强化学习效果的模型,显著提升了数学推理能力,成绩超过大多数32B级别模型。
与 DeepSeek-R1-14B 相比,Light-R1-14B-DS*在数学竞赛任务中表现突出:在 AIME24测试中提升4.3分,在 AIME25中更是提高10分。此外,在数学推理任务 GPQA 上,该模型取得61.7分 的优异成绩。
为实现这一突破,360智脑团队采用了两种创新训练方法。首先是 Curriculum SFT(渐进式监督微调),通过分阶段训练,让模型从简单数学问题逐步过渡到复杂问题,进一步增强逻辑推理能力。其次是 强化学习(RL),首次在14B级别推理模型上成功应用,不仅提升推理准确率,还确保其他技能基本无损。
此次发布不仅包括模型本身,还开源了 SFT数据、代码及技术报告,为业界提供了宝贵资源。这一成果标志着中小规模模型在强化学习领域的重大进展,或将推动AI推理能力的进一步普及与发展。
项目地址:https://github.com/Qihoo360/Light-R1
模型地址:https://huggingface.co/qihoo360/Light-R1-14B-DS
数据地址:https://huggingface.co/datasets/qihoo360/Light-R1-SFTData
最新星火攻略
更多- 票房热卖王猎聘大作战的玩法与攻略解析,带你全面了解游戏的乐趣与策略
- 万王之王3D坦克角色深入解析:谁才是确保团队生存与胜利的关键成员
- 怪物猎人荒野太刀高输出暴击装配方案解析,提升战斗效率与技能搭配
- LOL隐藏任务详细解析与探索攻略:帮助你发现更多未知的挑战与奖励
- inZOI全新产品详细解析-发售时间、技术规格及定价信息
- 老滚5游戏中通过一键操作快速获取NPC尸体的方法分享
- 姐妹双飞免费观看国语-探索影片内涵背后的情感世界吸引力为何如此强烈
- DNF沙影贝利特:传奇枪手与沙漠阴影交错而生的奇幻故事
- 银色北伐军声望系统任务步骤开启详解与攻略分享
- 百度全新开源表格识别技术PP-TableMagic助力智能数据处理,提升文档信息提取效能
- 如何利用www.1688.gov.cn平台有效提升品牌知名度和销售业绩的策略与方法
- 火炬之光1各职业技能详解与策略分析,掌握技能提升角色实力
- 问道游戏名称的多样选择与深度解析,带你了解每一个名字背后的含义与特色
- 三国志12对战版网络对战的实用技巧与策略详解
- 月圆之夜修女怎么玩
最新星火智能
更多- XXXX18HD与19HD热潮持续攀升,网友纷纷曝出显著新变化令人瞩目,引发网友热议!
- 三国演义经典时刻:赵云在长坂坡勇敢救出阿斗的游戏剧情深度解析
- AI流量霸主:ChatGPT荣登全球十大网站,却几乎未能分享流量的怪圈
- 详细解析WOW宠物对战机制与升级策略,助你轻松掌握高效培养宠物的技巧
- 完美电竞官网 完美电竞官网:深度探索电竞领域的无尽潜力与未来发展
- 鸣潮2.3版本前瞻特别通讯将于4月19日正式播出,敬请期待最新内容揭晓
- 丧尸围城2通关指南-第一章死水波澜详细攻略与技巧分析
- 在Windows10系统中实现每天定时自动关机和开机的详细操作指南
- PSP3000掌中宝:深入探讨PSP3000的电影播放功能与使用体验
- 《母与子》全集免费观看电视剧剧情大反转引发网友热议:究竟发生了哪些不可思议的事情?
- LOL手游中的各个段位玩家人数比例分析及其影响因素
- 最新英雄联盟至臻皮肤资讯曝光,LOL玩家必看精彩内容与推荐
- 暗影格斗3中的邪恶之母战斗策略与技巧详细解析
- 关于大多数游戏修改器的深入分析与解读,全方位探讨其功能及应用
- 博德之门2安姆的阴影全攻略流程详解(一)