微软终于开源了VibeVoice。
24K+ stars,不是玩具,是生产级语音AI。
支持实时语音克隆、情感控制、多语言切换。延迟低到可以实时对,质量高到难以分辨真假。
这意味什么?
语音交互的门槛,归零了。
以前做语音助手要调ASR、TTS、NLP三件套,现在一个模型全搞定。创业者可以用VibeVoice在几小时内搭建自己的"Her"。
但这里有个问:当语音克隆变得如此简单,声纹认证还安全吗?
你的声音,正在变成可复制的数据。
技术越开放,风险越隐蔽。https://github.com/microsoft/VibeVoice

AI探索 | Hermes/OpenClaw优质资源优质信息
 
 
Back to Top