文章详情

近日,中国科学院自动化研究所与中科紫东太初团队联手推出了一种新方法 ——Vision-R1,利用类 R1强化学习技术,显
2025-04-28 18:54:26
文章详情介绍
近日,中国科学院自动化研究所与中科紫东太初团队联手推出了一种新方法 ——Vision-R1,利用类 R1强化学习技术,显著提升了视觉定位的能力。这个方法不仅在目标检测和视觉定位等复杂任务上实现了50% 的性能提升,甚至超过了参数规模超过10倍的现有最优模型(SOTA)。
当前,图文大模型通常依赖 “预训练 + 监督微调” 的方法来提高对用户指令的响应能力,但这种方法在资源消耗和训练效率上都存在较大挑战。Vision-R1通过结合高质量的指令对齐数据和强化学习,创新性地改变了这一局面。该方法通过设计一种视觉任务评估驱动的奖励机制,为模型的目标定位能力提供了强有力的支持。
具体而言,Vision-R1的奖励机制包括四个核心部分:首先,它采用了多目标预测的方式,以确保在密集场景中有效评估预测质量;其次,设计了双重格式奖励,以解决长序列预测中的格式错误问题;再者,召回奖励鼓励模型尽可能多地识别目标;最后,精度奖励则确保模型生成的目标框质量更高。这些设计相互作用,形成了 “1+1>2” 的优化效果,使模型在复杂视觉任务中表现更为出色。
为了解决预测高质量目标框的挑战,研究团队还提出了一种渐进式规则调整策略,通过动态调整奖励计算规则,促使模型持续改进其性能。训练过程分为初学阶段和进阶阶段,逐步提高奖励标准,以实现从基础到高精度的转变。
在一系列测试中,Vision-R1在经典目标检测数据集 COCO 和多样场景的 ODINW-13上显示出卓越的性能,无论是基础性能如何,经过 Vision-R1训练后,模型的表现都大幅提升,进一步接近专业定位模型。这一方法不仅有效提升了图文大模型的视觉定位能力,同时也为未来的多模态 AI 应用提供了新的方向。
项目地址:https://github.com/jefferyZhan/Griffon/tree/master/Vision-R1
最新星火攻略
更多- 有效提升技能熟练度的实用方法与策略,让你快速掌握各项技能
- Sync Labs 推出 Lipsync-2:全球首个实现零-shot嘴部动作同步的革命性模型
- 赛尔号丁格具体出现位置详解及捕获技巧分析
- 神仙道:嫦娥升仙所需的道具数量究竟有多少?
- IBM推出全新z17大型机:每天可完成高达4500亿次AI推理,性能相比前代提升达50%
- WLK巫妖王之怒怀旧服:推荐高原创度冰法AA天赋的全面指南与策略分析
- 酷狗音乐携手DeepSeek实现深度合作 全新推出“AI 音乐听歌报告”服务助力用户更好体验
- 天龙八部游戏:全面揭秘高效获取活跃值的攻略与技巧,不可不看的方法大汇总
- Gemini Live视觉对话功能正式上线Pixel 9:AI助手开启多模态交互的新篇章
- 深入探讨英雄无敌4各类职业的特性与策略分析
- 英伟达成功收购 Lepton AI,前阿里副总裁贾扬清携核心团队正式加盟
- 神界危机4.6加强版:全面揭晓隐藏英雄密码及其使用攻略
- 谷歌推出最新的AI安全解决方案Sec-Gemini v1,实时识别网络攻击源头,提供秒级反应能力
- 幻木小径:踏上探索神秘与奇幻之境的冒险旅程
- 解析赛博朋克2077游戏中间歇性掉帧的原因与有效解决方案
最新星火智能
更多- 国产人工智能发展迅猛!全新开源图像模型HiDream-I1亮相,参数高达17亿,助力未来科技创新
- 忍者龙剑传1:经典动作游戏的传奇开篇,探索这款影响深远的游戏历史与巅峰之作
- 在勇闯死人谷的冒险中如何成功实现暗黑之日的逃脱结局
- Qwen3即将亮相:阿里云新模型支持已正式集成至vLLM代码库中,带来更多功能
- 在永夜降临复苏中买买缇娅究竟是否值得投入资源进行培养?
- ElevenLabs发布MCP服务器,实现AI语音功能与智能助手的完美融合
- DNF传说地下城的具体位置及寻找方法详解,玩家必看指南
- 超自然行动组逍遥的获取方法与途径有哪些,你需要了解的详细指导
- PokemonGym:AI挑战宝可梦Red,以仅450步的精准策略成功夺冠
- DNF暗影潜形匿影之狂音究竟具有什么样的属性特点和应用分析
- Geekplus 连续四年荣登全球顶级机器人企业名单,引领仓储效率的全面革新
- 男生高冷风格吃鸡名字推荐:塑造个性鲜明的游戏角色形象
- 炉石传说三红软软融合怪DK卡组的分享与教程
- Runway推出Gen-4 Turbo:革新AI视频生成技术,速度再次突破历史新高
- 深入探讨伏魔英雄传1.52版本的游戏机制与策略分析
最新星火游戏
更多








