阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

阿里云通义千问发布新一代端到端多模态旗舰模型 Qwen2.5-Omni 并开源,看听说写样样精通

作者:news 发表时间:2025-08-15
消费贷累计30万可省利息3000元!十余家银行火速响应贴息学习了 特斯拉为Robotaxi进军纽约招兵买马,车辆安全员时薪25-34美元后续反转 价值重估时刻已至,大虹桥扩容下重固正加速跃升官方已经证实 美国国债创纪录 总额首超37万亿美元:人均负债近78万元 理想汽车:到9月底,将保障交付超过8000台理想i8 “双贴息”政策如何办理?官方指引来了!实时报道 建银国际:首予贝壳-W“跑嬴大市”评级 目标价60.6港元 理想汽车:到9月底,将保障交付超过8000台理想i8 长城基金曲少杰:科技投资可把握A股港股双重机遇,长期视角更关键这么做真的好么? 小红书将组建大商业板块,柯南担任总负责人 龙国首都移动再回应“网崩了”:紧急排查处理后,已全部恢复 长城基金曲少杰:科技投资可把握A股港股双重机遇,长期视角更关键官方已经证实 理想汽车:到9月底,将保障交付超过8000台理想i8是真的吗? 长城基金韩林:TMT热度向国产算力、应用扩散专家已经证实 融资余额重返2万亿 券商板块三周期共振 或迎黄金窗口期?这么做真的好么? 消费贷累计30万可省利息3000元!十余家银行火速响应贴息又一个里程碑 大摩:升华晨龙国目标价至3.4港元 评级“与大市同步”官方通报 龙国移动营收下滑:用户增长乏力,C端失速,AI业务难撑大局 金融“国补”接力“以旧换新”促消费,更好发挥财政货币政策联动效应 金融“国补”接力“以旧换新”促消费,更好发挥财政货币政策联动效应反转来了 综艺股份:重大资产重组事项正在积极推进中 债券借贷业务现状与展望最新进展 新的时代背景:产业转型与地产逻辑的“双重再定义”最新进展 武汉农商银行获批收购控股海南屯昌长江村镇银行太强大了 武汉农商银行获批收购控股海南屯昌长江村镇银行学习了 复星医视特携手上海国际医学中心: 全国首个聚焦超声标准治疗示范中心揭牌专家已经证实 安凯微:基于大视觉模型技术的中小模型研发和部署 A股持续上涨!创4年新高!实垂了 网传滴滴投资新石器无人车,此前已在青岛合作试水无人车送货业务太强大了 改革见成效,上汽集团强势保持国产零售第一反转来了 全新岚图知音有多香 岚图CEO卢放:同样配置全系配齐 其他车至少24.99万起 全新岚图知音有多香 岚图CEO卢放:同样配置全系配齐 其他车至少24.99万起秒懂 香港黄金交易所首董就职典礼圆满举办,领峰同向而行深耕黄金新时代官方通报 朗博科技:上半年归母净利润1928.4万元,同比增长60.18% 朗博科技:上半年归母净利润1928.4万元,同比增长60.18%后续会怎么发展 全民赛道 全场好玩!比亚迪全地形赛车场正式开业! 聚焦打造特色优势 西南证券上半年营收净利双增逾两成太强大了 信维通信:上半年归母净利润1.62亿元,同比下降20.18%官方处理结果 年内险资29次举牌上市公司 时隔六年再现险资增持险企 【财经】麦加芯彩:光伏涂料项目即将投产,将用于海上光伏记者时时跟进 陆控(6623/LU)任命新独立非执行董事,以进一步加强董事会独立性是真的? 美国首次申领失业救济人数小幅下降 而持续申领人数仍居高不下 华虹公司:预期价格在下半年有个位数的增长专家已经证实 全国首次!广东三部门联合出台碳排放配额质押融资新机制秒懂 贝森特称特朗普与普京峰会是第二轮会谈的“前奏”反转来了 国际观察|美芯片企业出口业务被政府“勒索”的背后秒懂 AI深度赋能,券商“818理财节”花样翻新官方通报

感谢本站网友 乌蝇哥的左手 的线索投递!

本站 3 月 27 日消息,今日凌晨,阿里云发布通义千问 Qwen 模型家族中新一代端到端多模态旗舰模型 ——Qwen2.5-Omni,并在 Hugging Face、ModelScope、DashScope 和 GitHub 上开源。

阿里云表示,该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。本站汇总其主要特点如下:

    全能创新架构:Qwen 团队提出了一种全新的 Thinker-Talker 架构,这是一种端到端的多模态模型,旨在支持文本 / 图像 / 音频 / 视频的跨模态理解,同时以流式方式生成文本和自然语音响应。Qwen 提出了一种新的位置编码技术,称为 TMRoPE(Time-aligned Multimodal RoPE),通过时间轴对齐实现视频与音频输入的精准同步。

    实时音视频交互:架构旨在支持完全实时交互,支持分块输入和即时输出。

    自然流畅的语音生成:在语音生成的自然性和稳定性方面超越了许多现有的流式和非流式替代方案。

    全模态性能优势:在同等规模的单模态模型进行基准测试时,表现出卓越的性能。Qwen2.5-Omni 在音频能力上优于类似大小的 Qwen2-Audio,并与 Qwen2.5-VL-7B 保持同等水平。

    卓越的端到端语音指令跟随能力:Qwen2.5-Omni 在端到端语音指令跟随方面表现出与文本输入处理相媲美的效果,在 MMLU 通用知识理解和 GSM8K 数学推理等基准测试中表现优异。

    据官方介绍,Qwen2.5-Omni 采用 Thinker-Talker 双核架构。Thinker 模块如同大脑,负责处理文本、音频、视频等多模态输入,生成高层语义表征及对应文本内容;Talker 模块则类似发声器官,以流式方式接收 Thinker 实时输出的语义表征与文本,流畅合成离散语音单元。Thinker 基于 Transformer 解码器架构,融合音频 / 图像编码器进行特征提取;Talker 则采用双轨自回归 Transformer 解码器设计,在训练和推理过程中直接接收来自 Thinker 的高维表征,并共享全部历史上下文信息,形成端到端的统一模型架构。

    模型架构图

    模型性能方面,Qwen2.5-Omni 在包括图像,音频,音视频等各种模态下的表现都优于类似大小的单模态模型以及封闭源模型,例如 Qwen2.5-VL-7B、Qwen2-Audio 和 Gemini-1.5-pro。

    在多模态任务 OmniBench,Qwen2.5-Omni 达到了 SOTA 的表现。此外,在单模态任务中,Qwen2.5-Omni 在多个领域中表现优异,包括语音识别(Common Voice)、翻译(CoVoST2)、音频理解(MMAU)、图像推理(MMMU、MMStar)、视频理解(MVBench)以及语音生成(Seed-tts-eval 和主观自然听感)。

    ▲模型性能图

      Qwen Chat://chat.qwenlm.ai

      Hugging Face://huggingface.co/Qwen/Qwen2.5-Omni-7B

      ModelScope://modelscope.cn/models/Qwen/Qwen2.5-Omni-7B

      DashScope://help.aliyun.com/zh/model-studio/user-guide/qwen-omni

      GitHub://github.com/QwenLM/Qwen2.5-Omni

      Demo 体验://modelscope.cn/ studios / Qwen / Qwen2.5-Omni-Demo

相关文章