Soul内测全双工通话大模型:虚拟人交互迎来“活人感”时代

AI快讯1周前发布 ai-tab
12 0

🌟 产品介绍

Soul App(所属公司:上海任意门科技有限公司)在2025世界人工智能大会(WAIC)宣布,即将内测自研端到端全双工语音通话大模型。此次升级摒弃传统语音活动检测(VAD)机制,赋予AI自主决策对话节奏的能力,让虚拟人可像真人一样“边听边说”“主动插话”,甚至感知环境与情绪变化,大幅提升交互沉浸感。

Soul内测全双工通话大模型:虚拟人交互迎来“活人感”时代

👥 适用人群

目标用户需求场景
Z世代社交主力寻求情感陪伴,71.1%年轻人愿与AI建立情感连接(Soul用户调研数据)
虚拟人互动爱好者追求“活人感”交互,反感机械式问答
社交破冰需求者依赖AI主持人活跃群聊氛围,降低多人社交压力
技术尝鲜群体关注多模态交互,期待“视频+语音”立体化虚拟人体验

⚙️ 核心功能与技术解析

  1. 自主决策对话节奏

    • 功能:AI主动打破沉默、适时打断用户、支持并行发言(如辩论或合唱)。
    • 技术原理:基于流式响应预测架构(Response-Listen-Interrupt),通过纯自回归模型统一文本与音频生成,动态控制对话状态。
  2. 多维度环境感知

    • 功能:根据时间(如“天黑了”)、环境噪音、事件触发对话策略调整。
    • 技术原理:融合多模态输入(语音/环境音/上下文),利用大语言模型(LLM)实时生成情境化回应。
  3. 超拟人化表达

    • 功能:模拟语气词、结巴、情绪起伏(如开心转难过),支持方言和即兴创作。
    • 技术原理:端到端模型跳转文本中间层,保留语音中的副语言信息(Para-linguistic Features)。
  4. 多人场景AI主持

    • 功能:在群聊派对中管理秩序、延展话题,捕捉用户共鸣点催化社交关系。
    • 技术原理:双通道token预测(NTPP范式),独立处理多用户语音流并分配响应权。
  5. 实时视频生成融合

    • 功能:结合全双工语音与动态人像视频,展示虚拟人形象与场景。
    • 技术原理:实时视频生成技术(CVPR 2025成果)与语音模型协同,塑造立体数字人格。

💡 工具使用技巧

  • 快速激活AI互动:在1V1通话中说“我觉得今天好累”,触发AI情感疗愈模式,提供情绪疏导。
  • 多人场景增效:开启群聊派对时,用“小可,帮我们选个话题”指令启动AI主持人,自动引导讨论方向。
  • 个性化定制:输入“用东北话聊美食”,AI自动切换方言与话题风格,适配用户偏好。

🔗 访问地址

划重点:Soul的突破不仅是技术升级,更是对社交本质的重构——当AI能主动说“你刚才停顿了,是不是有烦心事?”,人与机器的情感共生时代才真正来临。


© 版权声明
trae-字节旗下AI代码助手

相关文章

暂无评论

none
暂无评论...