微软近日正式开源了其最新研发的文本转语音(tts)模型 vibevoice-1.5b,该模型以“超长时长、多说话人、高压缩比”为核心亮点,能够单次生成最长90分钟的连续语音流,并支持最多4位不同说话人同时发声,适用于复杂对话场景与长内容播报。
VibeVoice-1.5B 的关键技术突破在于其独特的双 Tokenizer 架构设计,模型由两个既独立又协同工作的模块组成。
1. 声学 Tokenizer:专注声音特征保留与高效压缩
该模块采用基于变分自编码器(VAE)的对称编码-解码结构,有效缓解了传统 VAE 在处理长语音序列时常见的“方差坍缩”问题,从而更好地保持语音多样性。
通过融合7阶段改进型 Transformer 与 1D 深度可分离因果卷积,声学 Tokenizer 可将 24kHz 高采样率的原始音频信号压缩为每秒仅 7.5 个潜在向量,实现高达 3200 倍的压缩比,相较主流 Encodec 模型效率提升达 80 倍。
2. 语义 Tokenizer:精准提取与文本对齐的语义信息
其架构沿用声学 Tokeniz
er 编码器结构,但去除了 VAE 中的随机采样机制,确保语义表示的确定性与稳定性。
在训练阶段,语义 Tokenizer 通过自动语音识别(ASR)任务进行监督学习,强化语音与文本之间的对齐能力;推理时则舍弃解码器部分,使整体推理速度提升约 40%。
这种双轨并行的设计策略,使得模型既能高度还原语音的自然音色、语调和节奏,又能确保输出内容与输入文本在语义层面高度一致,显著改善了传统 TTS 模型中常见的“情绪与音色错位”现象。
开源地址:
https://www./link/4d0d3acf6bc4d8f28d53f73a2879dc3e
https://www./link/5abad9111ffcd62ba77847ae11e1ae65
# 开源
# 既能
# 于其
# 多说
# 可将
# 又能
# 适用于
# 最多
# 压缩比
# git
# 文本转语音
# microsoft
# https
# transformer
# github
# 架构
# 微软
相关文章:
稀有心法获取与培养全攻略:从入门到精通的集卡之旅
一加开启全档位产品布局 为各档位提供极致游戏体验
从“软硬结合”到生态闭环:罗永浩的手机梦还能实现吗?
王者荣耀花木兰出装全攻略:平衡之道成就边路战神
AI 浪潮正推动年轻人涌入建筑业“淘金”
荣耀与三角洲行动职业联赛达成战略合作,共筑顶尖电竞生态体验
影之刃3三十八级主线任务全解析:突破瓶颈的江湖试炼
折叠屏iPhone缩水:竟比预期小 造型酷似护照本
超越星巴克?瑞幸的品牌人设立「新」了
小米“Ultra”系列演进图谱:每代旗舰背后的核心突破
传快手副总裁、基础大模型及推荐大模型负责人周国睿即将离职
元宝电脑版新增“AI 录音笔”功能
七彩虹MEOW橘宝R16 Pro笔记本评测:性能均衡无短板 210W狂暴释放2K游戏轻松流畅
紧跟时事!《逃离鸭科夫》更新:硬盘涨价 可攻击杰夫
主打一个听劝!《哈迪斯2》真结局哥哥回归源于社区反馈
《|美女|请别影响我成仙》即将登陆主机平台
独特背插供电!蓝宝石NITRO+氮动RX 9070 XT显卡图赏
春节出行不焦虑!真我GT8用硬实力守护你的团圆时刻
影之刃3左殇职业材料获取全攻略:从入门到毕业的江湖寻宝之旅
NVIDIA CUDA Tile IR 开源
OPPO Pad Air5上架:4年流畅耐用 1899元起
Copilot 整合效果不佳,微软 CEO 亲自介入进行整改
小米17 Ultra发布会定档12月25日,与徕卡合作引领影像创新
Xbox玩家实测:删除好友竟能大幅提升游戏流畅度
Qwen-Image-2512 正式开源发布:更真实的人物质感、更细腻的自然纹理、更复杂的文字渲染
反传统的Patagonia,不想赚钱
荣耀员工:WIN系列将支持四个MagicOS大版本更新
乐视出《甄嬛传》周边被丑拒:“这是如花?”
蜂鸟bebird专业耳朵护理仪重磅上市:开启家庭耳部健康“可视化”护理新时代!
虚幻5+DLSS4齐上阵!华硕显卡助力《仙剑4重制版》焕然一新
新消费|营销误区系列02:打造调性,如何种草?
软银完成对 OpenAI 的 225 亿美元追加投资
备战“内存荒”:消息称厂商直接接洽三星、SK 海力士等,寻求长期供货
Andrej Karpathy 的焦虑:作为一名程序员,我从未感到如此落后
东方甄选官方确认:新东方“老将”孙进将担任执行总裁
DjangoAdmin 敏捷开发框架 Django+EleVue 版本 v2.7.0 发布
遗憾!苹果曾测试粉/黄色AirPods
遗迹三层地龙开荒指南:核心战术拆解
京东航空开通“深圳 = 十堰”航线,鄂西北全货机货运实现“从无到有”
跟AMD RDNA分手 三星2nm芯片Exynos 2600用上自研GPU
功勋系统全解析:高效积累与赛季兑换完全指南
消息称三星半导体负责人全永铉发布年终内部信,称离赶上内存对手还很远
Linus Torvalds 罕见发声:对 GPLv2 的明确声明
任天堂宣布e商店1月重新上架Switch 2 包含国际版
《荒野大镖客2》亚瑟初设曝光!外媒称没有魅力
IBM 传奇领袖 Louis Gerstner 逝世
反向“白嫖”网友?星巴克赢麻了!
资源不愁,听剧无忧——腐竹FM,打造你的专属声音宇宙
听广播剧?全网高能广播剧,腐竹FM一网打尽!
火绒安全复盘快手遭攻击事件:薄弱时段遭遇高频洪泛攻击、攻击呈现出高度的拟人化与自适应性
相关栏目:
【
广告资讯37196 】
【
广告推广143353 】
【
广告优化89630 】