微软开源文本转语音模型 VibeVoice,支持最多 4 位说话人同时发声
栏目:广告资讯 发布时间:2025-08-26
微软近日正式开源了其最新研发的文本转语音(TTS)模型VibeVoice-1.5B,该模型以“超长时长、多说话人、高压缩比”为核心亮点,能够单次生成最长90分钟的连续语音流,并支持最多4位不同说话人同时发声,适用于复杂对话场景与长内容播报。VibeVoice-1.5B的关键技术突破在于其独特的双Tokenizer架构设计,模型由两个既独立又协同工作的模块组成。1.声学Tokenizer:专注声音特征保留与高效压缩该模块采用基于变分自编码器(VAE)的对称编码-解码结构,有效缓解了传统VAE

微软近日正式开源了其最新研发的文本转语音(tts)模型 vibevoice-1.5b,该模型以“超长时长、多说话人、高压缩比”为核心亮点,能够单次生成最长90分钟的连续语音流,并支持最多4位不同说话人同时发声,适用于复杂对话场景与长内容播报。

VibeVoice-1.5B 的关键技术突破在于其独特的双 Tokenizer 架构设计,模型由两个既独立又协同工作的模块组成。

1. 声学 Tokenizer:专注声音特征保留与高效压缩

该模块采用基于变分自编码器(VAE)的对称编码-解码结构,有效缓解了传统 VAE 在处理长语音序列时常见的“方差坍缩”问题,从而更好地保持语音多样性。

通过融合7阶段改进型 Transformer 与 1D 深度可分离因果卷积,声学 Tokenizer 可将 24kHz 高采样率的原始音频信号压缩为每秒仅 7.5 个潜在向量,实现高达 3200 倍的压缩比,相较主流 Encodec 模型效率提升达 80 倍。

2. 语义 Tokenizer:精准提取与文本对齐的语义信息

其架构沿用声学 Tokenizer 编码器结构,但去除了 VAE 中的随机采样机制,确保语义表示的确定性与稳定性。

在训练阶段,语义 Tokenizer 通过自动语音识别(ASR)任务进行监督学习,强化语音与文本之间的对齐能力;推理时则舍弃解码器部分,使整体推理速度提升约 40%。

这种双轨并行的设计策略,使得模型既能高度还原语音的自然音色、语调和节奏,又能确保输出内容与输入文本在语义层面高度一致,显著改善了传统 TTS 模型中常见的“情绪与音色错位”现象。

开源地址:

https://www./link/4d0d3acf6bc4d8f28d53f73a2879dc3e
https://www./link/5abad9111ffcd62ba77847ae11e1ae65


# 开源  # 既能  # 于其  # 多说  # 可将  # 又能  # 适用于  # 最多  # 压缩比  # git  # 文本转语音  # microsoft  # https  # transformer  # github  # 架构  # 微软 


相关文章: 稀有心法获取与培养全攻略:从入门到精通的集卡之旅  一加开启全档位产品布局 为各档位提供极致游戏体验  从“软硬结合”到生态闭环:罗永浩的手机梦还能实现吗?  王者荣耀花木兰出装全攻略:平衡之道成就边路战神  AI 浪潮正推动年轻人涌入建筑业“淘金”  荣耀与三角洲行动职业联赛达成战略合作,共筑顶尖电竞生态体验  影之刃3三十八级主线任务全解析:突破瓶颈的江湖试炼  折叠屏iPhone缩水:竟比预期小 造型酷似护照本  超越星巴克?瑞幸的品牌人设立「新」了  小米“Ultra”系列演进图谱:每代旗舰背后的核心突破  传快手副总裁、基础大模型及推荐大模型负责人周国睿即将离职  元宝电脑版新增“AI 录音笔”功能  七彩虹MEOW橘宝R16 Pro笔记本评测:性能均衡无短板 210W狂暴释放2K游戏轻松流畅  紧跟时事!《逃离鸭科夫》更新:硬盘涨价 可攻击杰夫  主打一个听劝!《哈迪斯2》真结局哥哥回归源于社区反馈  《|美女|请别影响我成仙》即将登陆主机平台  独特背插供电!蓝宝石NITRO+氮动RX 9070 XT显卡图赏  春节出行不焦虑!真我GT8用硬实力守护你的团圆时刻  影之刃3左殇职业材料获取全攻略:从入门到毕业的江湖寻宝之旅  NVIDIA CUDA Tile IR 开源  OPPO Pad Air5上架:4年流畅耐用 1899元起  Copilot 整合效果不佳,微软 CEO 亲自介入进行整改  小米17 Ultra发布会定档12月25日,与徕卡合作引领影像创新  Xbox玩家实测:删除好友竟能大幅提升游戏流畅度  Qwen-Image-2512 正式开源发布:更真实的人物质感、更细腻的自然纹理、更复杂的文字渲染  反传统的Patagonia,不想赚钱  荣耀员工:WIN系列将支持四个MagicOS大版本更新  乐视出《甄嬛传》周边被丑拒:“这是如花?”  蜂鸟bebird专业耳朵护理仪重磅上市:开启家庭耳部健康“可视化”护理新时代!  虚幻5+DLSS4齐上阵!华硕显卡助力《仙剑4重制版》焕然一新  新消费|营销误区系列02:打造调性,如何种草?  软银完成对 OpenAI 的 225 亿美元追加投资  备战“内存荒”:消息称厂商直接接洽三星、SK 海力士等,寻求长期供货  Andrej Karpathy 的焦虑:作为一名程序员,我从未感到如此落后  东方甄选官方确认:新东方“老将”孙进将担任执行总裁  DjangoAdmin 敏捷开发框架 Django+EleVue 版本 v2.7.0 发布  遗憾!苹果曾测试粉/黄色AirPods  遗迹三层地龙开荒指南:核心战术拆解  京东航空开通“深圳 = 十堰”航线,鄂西北全货机货运实现“从无到有”  跟AMD RDNA分手 三星2nm芯片Exynos 2600用上自研GPU  功勋系统全解析:高效积累与赛季兑换完全指南  消息称三星半导体负责人全永铉发布年终内部信,称离赶上内存对手还很远  Linus Torvalds 罕见发声:对 GPLv2 的明确声明  任天堂宣布e商店1月重新上架Switch 2 包含国际版  《荒野大镖客2》亚瑟初设曝光!外媒称没有魅力  IBM 传奇领袖 Louis Gerstner 逝世  反向“白嫖”网友?星巴克赢麻了!  资源不愁,听剧无忧——腐竹FM,打造你的专属声音宇宙  听广播剧?全网高能广播剧,腐竹FM一网打尽!  火绒安全复盘快手遭攻击事件:薄弱时段遭遇高频洪泛攻击、攻击呈现出高度的拟人化与自适应性 


相关栏目: 【 广告资讯37196 】 【 广告推广143353 】 【 广告优化89630