文章详情

阶跃星辰科技团队宣布正式推出全新的多模态推理模型 Step-R1-V-Mini。这一模型的发布标志着在多模态协同推理领域
2025-04-28 20:41:51
文章详情介绍
阶跃星辰科技团队宣布正式推出全新的多模态推理模型 Step-R1-V-Mini。这一模型的发布标志着在多模态协同推理领域的新突破,为AI技术的进一步发展注入了新的活力。Step-R1-V-Mini支持图文输入和文字输出,具备良好的指令遵循能力和通用性,能够高精度感知图像并完成复杂的推理任务。
Step-R1-V-Mini的训练方法在技术上进行了创新,采用了多模态联合强化学习,基于PPO(Proximal Policy Optimization)强化学习策略,在图像空间引入了verifiable reward机制。这一机制有效解决了图片空间推理链路复杂、容易产生混淆的相关和因果推理错误的问题。与DPO(Direct Preference Optimization)等方法相比,Step-R1-V-Mini在处理图像空间的复杂链路时更具泛化性和鲁棒性。
此外,为了充分利用多模态合成数据,阶跃星辰设计了大量基于环境反馈的多模态数据合成链路,合成了可规模化训练的多模态推理数据。通过基于PPO的强化学习训练,同步提升了模型的文本和视觉推理能力,有效避免了训练过程中的跷跷板问题。
在视觉推理领域的表现上,Step-R1-V-Mini取得了显著的成绩。在多个公开榜单中,Step-R1-V-Mini均表现亮眼,特别是在MathVision视觉推理榜单上位列国内第一。这表明该模型在视觉推理、数学逻辑和代码等方面具有优异的表现。
Step-R1-V-Mini的实际应用案例也展示了其强大的功能。例如,在“看图识地点”案例中,输入网友拍摄的温布利球场图片,Step-R1-V-Mini能够迅速识别图中元素,结合不同元素如颜色、物体(体育场、曼城队徽)等进行综合判断,准确推断出地点为温布利体育场,并给出了可能的对战双方。在“看图识菜谱”案例中,输入一张美食图,Step-R1-V-Mini能够精准识别菜品和蘸料,并详细列出具体用量,如“鲜虾300g、大葱白2根”等。在“物体数量计算”案例中,输入一张含有不同形状、颜色和位置的物体摆放图,Step-R1-V-Mini能够逐一识别,根据物体的颜色、形状和位置进行推理计算,最终得出剩下的物体数量。
Step-R1-V-Mini的发布为多模态推理领域带来了新的希望。该模型已正式上线阶跃AI网页端,并在阶跃星辰开放平台提供API接口,供开发者和研究人员体验和使用。阶跃星辰表示,Step-R1-V-Mini是他们在多模态推理方向的阶段性成果,未来将继续在推理模型方向进行探索,以推动AI技术的进一步发展。
阶跃AI 网页端:
https://yuewen.cn/chats/new
阶跃星辰开放平台:
https://platform.stepfun.com/docs/llm/reasoning
最新星火攻略
更多- 原神联动活动详解:如何在游戏中获得异世界救世主埃洛伊的完整步骤解析
- 全新开源模型 DeepCoder:实现极致编程效率,力压 OpenAI o1 模型的潜力与性能
- LOL一月幸运召唤师活动全方位深度解析与参与指南,骑士们准备好迎接挑战了吗?
- NS2与NS卡带的兼容性探讨:揭示Nintendo Switch如何处理旧款游戏卡带的兼容性挑战
- 网信办:至2025年3月31日已有346款生成性人工智能服务完成备案登记工作
- 剑网3指尖江湖:全面解析快速提高战力的多种有效策略与方法
- AI虚拟化身推动技术创新浪潮:生成模型为多元化应用开启新视野
- 深入星露谷物语的探险:成功献祭沙漠柱子的实用技巧与策略指南
- Deep Research正式推出Gemini 2.5 Pro:谷歌最新的AI智能模型引领科技潮流
- 燕云十六声:扇子武学的偷师秘籍与实用攻略分享
- DNF忍者觉醒深入解析:技能特点、玩法策略及角色发展全方位分析
- SiteMCP:一款将普通网站转变为功能强大的MCP服务器的创新解决方案
- 魔兽世界:轻松获取战地修理机器人110G图纸的高效攻略与技巧分享
- 抖音宣布推出辟谣卡功能:将人工审核与AI大模型技术相结合以提升辟谣准确性
- 魔兽世界MC中的灭火任务全攻略详解,助你轻松完成挑战
最新星火智能
更多- 甲骨文在建设 OpenAI 数据中心方面进展缓慢或将对未来的合作关系产生潜在影响
- 烟雨江湖曲谱选购技巧与购买渠道全解析
- 《2025年全球人工智能发展指数报告》:全球AI创新持续加速,中国在多个领域展现出强劲的增长势头
- 探索获取新月同行超相尘道具的详细方法与最佳攻略技巧
- 2025年全国大模型算法备案补贴政策重磅出台,最高可获5000万元的奖励补贴详情一览!
- 2024 LCK S14dk 各大战队阵容及选手国籍全面解析
- 全新SkyReels-A2视频生成框架发布:可控视频生成技术再攀高峰,开启创作新纪元
- 魔兽世界PLUS各职业符文天赋全解析——输出牧师的必备攻略与选择指南
- AI动态更新:阿里即将推出最新模型Qwen3;GitHub宣布开源MCP服务器;Runway隆重发布Gen-4 Turbo新版本
- 中华网游戏:深入探讨多元化游戏世界的无尽探索与可能性
- 2024年畅玩拳皇手游下载榜单:最佳街机游戏强烈推荐
- Vision-R1:借助强化学习技术提升视觉定位能力,图文模型性能显著提升达50%
- 有效提升技能熟练度的实用方法与策略,让你快速掌握各项技能
- Sync Labs 推出 Lipsync-2:全球首个实现零-shot嘴部动作同步的革命性模型
- 赛尔号丁格具体出现位置详解及捕获技巧分析
最新星火游戏
更多








