🌟 产品介绍
Soul App(所属公司:上海任意门科技有限公司)在2025世界人工智能大会(WAIC)宣布,即将内测自研端到端全双工语音通话大模型。此次升级摒弃传统语音活动检测(VAD)机制,赋予AI自主决策对话节奏的能力,让虚拟人可像真人一样“边听边说”“主动插话”,甚至感知环境与情绪变化,大幅提升交互沉浸感。

👥 适用人群
目标用户 | 需求场景 |
---|---|
Z世代社交主力 | 寻求情感陪伴,71.1%年轻人愿与AI建立情感连接(Soul用户调研数据) |
虚拟人互动爱好者 | 追求“活人感”交互,反感机械式问答 |
社交破冰需求者 | 依赖AI主持人活跃群聊氛围,降低多人社交压力 |
技术尝鲜群体 | 关注多模态交互,期待“视频+语音”立体化虚拟人体验 |
⚙️ 核心功能与技术解析
自主决策对话节奏
- 功能:AI主动打破沉默、适时打断用户、支持并行发言(如辩论或合唱)。
- 技术原理:基于流式响应预测架构(Response-Listen-Interrupt),通过纯自回归模型统一文本与音频生成,动态控制对话状态。
多维度环境感知
- 功能:根据时间(如“天黑了”)、环境噪音、事件触发对话策略调整。
- 技术原理:融合多模态输入(语音/环境音/上下文),利用大语言模型(LLM)实时生成情境化回应。
超拟人化表达
- 功能:模拟语气词、结巴、情绪起伏(如开心转难过),支持方言和即兴创作。
- 技术原理:端到端模型跳转文本中间层,保留语音中的副语言信息(Para-linguistic Features)。
多人场景AI主持
- 功能:在群聊派对中管理秩序、延展话题,捕捉用户共鸣点催化社交关系。
- 技术原理:双通道token预测(NTPP范式),独立处理多用户语音流并分配响应权。
实时视频生成融合
- 功能:结合全双工语音与动态人像视频,展示虚拟人形象与场景。
- 技术原理:实时视频生成技术(CVPR 2025成果)与语音模型协同,塑造立体数字人格。
💡 工具使用技巧
- 快速激活AI互动:在1V1通话中说“我觉得今天好累”,触发AI情感疗愈模式,提供情绪疏导。
- 多人场景增效:开启群聊派对时,用“小可,帮我们选个话题”指令启动AI主持人,自动引导讨论方向。
- 个性化定制:输入“用东北话聊美食”,AI自动切换方言与话题风格,适配用户偏好。
🔗 访问地址
- Soul App全双工功能内测申请:https://www.soulapp.com/full-duplex(预计2025年8月开放)
- WAIC 2025技术展示回顾:https://www.cnfin.com/gs-lb/detail/20250727/4275747_1.html
划重点:Soul的突破不仅是技术升级,更是对社交本质的重构——当AI能主动说“你刚才停顿了,是不是有烦心事?”,人与机器的情感共生时代才真正来临。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...