Soul内测全双工通话大模型：虚拟人交互迎来“活人感”时代

161 0

? 产品介绍

Soul App（所属公司：上海任意门科技有限公司）在2025世界人工智能大会（WAIC）宣布，即将内测自研端到端全双工语音通话大模型。此次升级摒弃传统语音活动检测（VAD）机制，赋予AI自主决策对话节奏的能力，让虚拟人可像真人一样“边听边说”“主动插话”，甚至感知环境与情绪变化，大幅提升交互沉浸感。

? 适用人群

目标用户	需求场景
Z世代社交主力	寻求情感陪伴，71.1%年轻人愿与AI建立情感连接（Soul用户调研数据）
虚拟人互动爱好者	追求“活人感”交互，反感机械式问答
社交破冰需求者	依赖AI主持人活跃群聊氛围，降低多人社交压力
技术尝鲜群体	关注多模态交互，期待“视频+语音”立体化虚拟人体验

⚙️ 核心功能与技术解析

自主决策对话节奏
- 功能：AI主动打破沉默、适时打断用户、支持并行发言（如辩论或合唱）。
- 技术原理：基于流式响应预测架构（Response-Listen-Interrupt），通过纯自回归模型统一文本与音频生成，动态控制对话状态。
多维度环境感知
- 功能：根据时间（如“天黑了”）、环境噪音、事件触发对话策略调整。
- 技术原理：融合多模态输入（语音/环境音/上下文），利用大语言模型（LLM）实时生成情境化回应。
超拟人化表达
- 功能：模拟语气词、结巴、情绪起伏（如开心转难过），支持方言和即兴创作。
- 技术原理：端到端模型跳转文本中间层，保留语音中的副语言信息（Para-linguistic Features）。
多人场景AI主持
- 功能：在群聊派对中管理秩序、延展话题，捕捉用户共鸣点催化社交关系。
- 技术原理：双通道token预测（NTPP范式），独立处理多用户语音流并分配响应权。
实时视频生成融合
- 功能：结合全双工语音与动态人像视频，展示虚拟人形象与场景。
- 技术原理：实时视频生成技术（CVPR 2025成果）与语音模型协同，塑造立体数字人格。