文章详情

3月27日,阿里云通义千问Qwen团队宣布推出Qwen模型家族中的新一代端到端多模态旗舰模型——Qwen2.5-Omni
2025-04-27 02:21:00
文章详情介绍
3月27日,阿里云通义千问Qwen团队宣布推出Qwen模型家族中的新一代端到端多模态旗舰模型——Qwen2.5-Omni。这一全新模型专为全方位多模态感知而设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。
Qwen2.5-Omni采用了创新的Thinker-Talker架构,这是一种端到端的多模态模型,旨在支持文本、图像、音频、视频的跨模态理解,并以流式方式生成文本和自然语音响应。其中,Thinker模块如同大脑,负责处理多模态输入并生成高层语义表征及对应文本内容;Talker模块则类似发声器官,以流式方式接收Thinker实时输出的语义表征与文本,流畅合成离散语音单元。此外,该模型还提出了一种新的位置编码技术TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。
该模型在实时音视频交互方面表现出色,支持分块输入和即时输出,能够实现完全实时的交互。在语音生成的自然性和稳定性方面,Qwen2.5-Omni超越了许多现有的流式和非流式替代方案。在全模态性能方面,Qwen2.5-Omni在同等规模的单模态模型进行基准测试时,表现出卓越的性能,其音频能力优于类似大小的Qwen2-Audio,并与Qwen2.5-VL-7B保持同等水平。此外,Qwen2.5-Omni在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在MMLU通用知识理解和GSM8K数学推理等基准测试中表现优异。
Qwen2.5-Omni在包括图像、音频、音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如Qwen2.5-VL-7B、Qwen2-Audio和Gemini-1.5-pro。在多模态任务OmniBench中,Qwen2.5-Omni达到了SOTA的表现。在单模态任务中,Qwen2.5-Omni在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval和主观自然听感)。
目前,Qwen2.5-Omni已在Hugging Face、ModelScope、DashScope和GitHub上开源开放,用户可以通过Demo体验互动功能,或是通过Qwen Chat直接发起语音或视频聊天,沉浸式体验全新的Qwen2.5-Omni模型强大性能。
Qwen Chat:https://chat.qwenlm.ai
Hugging Face:https://huggingface.co/Qwen/Qwen2.5-Omni-7B
ModelScope:https://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B
DashScope:https://help.aliyun.com/zh/model-studio/user-guide/qwen-omni
GitHub:https://github.com/QwenLM/Qwen2.5-Omni
Demo体验:https://modelscope.cn/studios/Qwen/Qwen2.5-Omni-Demo
最新星火攻略
更多- 帝国时代的统治者与征服者:探索历史中权力与荣耀的交织
- 商汤集团发布2024年财报:生成式AI业务收入激增103%引发市场关注
- 成都推动人工智能产业发展,争取到2025年规模实现1300亿元的目标
- 葡萄熟了4:在阳光下绽放的丰收季节,甜蜜与酸涩交织的味觉盛宴
- 封神榜游戏全面分析与深度探讨,探究封神榜游戏的玩法与特色
- 蚂蚁集团推出全新 EnergyTS 大模型 提升新能源领域的预测与分析能力
- 雷鸟AR眼镜与通义深度定制大模型强强联手,交互体验大幅提升显著可见
- 蚂蚁数科发布全新能源电力预测模型 EnergyTS,助力新能源领域提升运营效率
- 知乎在首次实现单季度盈利的基础上,计划将AI技术更深入地融入其多元化的社区场景中,以提升用户体验和互动质量
- 鬼泣5游戏配置详解及其系统要求全面分析与探讨
- 全球首款音乐推理大模型 Mureka O1 正式发布,开启人工智能音乐创作的新纪元
- 谷歌对AI助手Pixie项目进行拆分,以避免与Gemini项目产生竞争
- 英雄联盟隐藏分系统详解:揭示隐藏分背后的机制与影响因素
- 2023年中国AIGC应用月活跃用户排名Top10揭晓:DeepSeek以1.8亿用户居首位
- 蚂蚁数科推出EnergyTS能源电力时序大模型 预测精准度超越谷歌与亚马逊的同类产品
最新星火智能
更多- 腾讯元宝电脑版/网页版新升级:新增实时预览 HTML 代码功能,助力快速开发
- 幻世录2修改器全面剖析与使用技巧分享,助你轻松畅玩游戏
- AI动态:OpenAI推出全新单句图像生成技术;可灵AI实现营收突破1亿;谷歌发布最新高性能推理大模型Gemini 2.5
- 无成本打造热销产品!AI电商视频生成工具Product Anyshoot震撼来袭,助力转化率提升高达300%
- 萝卜快跑宣布在自贡成立新科技公司,涉足AI相关业务领域
- Perplexity革新AI搜索体验:多模态答案模式推动行业变革至新高度
- 黑暗之魂3 DLC深度解析:探索《黑暗之魂3》的扩展内容与游戏机制
- 清华大学推出开源Video-T1技术:实现AI视频高清化无需重新训练的创新突破
- Keep推出运动健康领域专属AI模型Kinetic.ai,携手发布智能AI教练Kaka助力用户健身
- 新版DeepSeek V3编程能力显著增强!五款顶尖AI编程工具助你迅速成为编程高手
- 卖保险套的女销售3:以诚为本,构建健康社会的守护者
- Figure AI在人形机器人行走技术上取得重大突破:实现接近人类的速度,训练时间缩短至数小时
- 西班牙政府计划立法以打击 AI 制作的色情图像以保护未成年人隐私安全
- 苹果利用苹果地图的“Look Around”功能来训练其人工智能模型以提高服务体验和精准度
- 深入探讨彩虹岛的白金用户 及其在游戏中的独特地位与优势