AI音频模型

共 1 篇文章

排序

传统语音合成面临长对话断裂、角色一致性差等痛点。微软VibeVoice通过7.5Hz超低帧率分词器实现3200倍音频压缩，在实测中合成90分钟多角色对话的MOS评分达3.76分。开源框架支持中英双语播...

11个月前