夸克与浙大联合开源音频驱动全身视频生成模型OmniAvatar:一张图+一段音,创造会说话的数字人

AI快讯23小时前发布 ai-tab
2 0

一、产品介绍:谁创造了这项黑科技?

OmniAvatar 是由阿里巴巴夸克实验室浙江大学在2025年7月联合发布的突破性开源模型,专注于解决数字人视频生成的三大痛点:

  • 精准唇形同步(音频→嘴型)
  • 自然肢体动作(摆脱“僵尸化”身体)
  • 多模态控制(用文字指挥虚拟人做动作)

其技术基础源自千亿参数级视频生成模型 Wan2.1-T2V-14B,通过创新的像素级音频融合策略低秩适配微调技术(LoRA),实现了对原有模型能力的无损升级。

夸克与浙大联合开源音频驱动全身视频生成模型OmniAvatar:一张图+一段音,创造会说话的数字人

二、适用人群:谁该立刻试试这个工具?

用户类型典型场景
数字内容创作者快速生成虚拟主播视频,降低真人出镜成本
教育工作者制作带情感表达的AI教师授课视频
电商营销团队生成商品讲解虚拟人,支持24小时直播
影视广告制作方低成本预演角色表演,测试台词与动作匹配度
技术开发者基于开源模型二次开发数字人应用
元宇宙内容构建者为虚拟世界注入可自然交互的AI角色

💡 划重点:OmniAvatar特别适合需要高频产出真人化视频但预算有限的团队。


三、核心功能:如何实现“声到形动”的魔法?

1. 像素级音频嵌入(PLAE技术)

原理

  • Wav2Vec2模型 提取音频的512维时序特征
  • 通过 Audio Packing模块 (APM) 压缩特征至视频分辨率
  • 分层注入 DiT模块(第2-12层),避免底层语义干扰
    效果
    音频不再只驱动嘴唇,而是渗透到全身动作,使肢体律动与语音节奏自然匹配。

2. 基于LoRA的平衡微调

原理

  • 冻结基础模型权重,仅在注意力层和FFN层添加可训练低秩矩阵
  • 两阶段优化:先训练LoRA参数 → 解冻部分DiT模块强化交互
    效果
    在保留Wan2.1强大视频生成能力的同时,新增音频驱动能力不产生冲突

3. 长视频一致性控制

原理

  • 参考帧嵌入(RFE):首帧特征复制扩展为身份锚点
  • 帧重叠策略(FOS):用上一批末尾帧作为下一批前缀
    效果
    30秒以上视频仍保持人物身份一致性(无脸崩),动作过渡流畅。

4. 文本精准控制生成

原理

  • 继承基础模型的文本理解能力
  • 通过CFG=4.5平衡音频同步与文本控制强度
    效果
    用提示词如 "右手举杯+微笑表情" 即可精确指挥虚拟人表演

5. 跨场景动态适应

原理

  • 动态背景与人物分离渲染
  • 镜头运动补偿算法
    效果
    在移动镜头下仍保持面部聚焦与背景协调,无扭曲。

四、工具使用技巧:这样玩转OmniAvatar

输入素材优化指南

要素推荐要求避坑提示
人物图片正面半身/全身照,光线均匀避免侧脸或遮挡嘴部的图片
音频清晰人声,采样率16kHz+背景音乐占比不超过20%
提示词英文动词短语+情绪形容词例:"excited, waving hands"

⚙️ 参数调优建议

  1. 长视频生成
    启用 frame_overlap=3(重叠帧数)减少跳帧
  2. 增强表现力
    设置 emotion_intensity=0.7 强化表情幅度
  3. 商业级输出
    resolution=1024x768 避免低清渲染

高阶玩法

  • 虚拟直播:接入OBS推流,实时生成虚拟主播
  • 多语言内容:支持中/英/日等语音驱动(需切换Wav2Vec2语言包)
  • 影视彩排:输入剧本自动生成分镜预演视频

五、访问地址:立即获取开源资源

🔥 官方渠道

平台链接地址
项目主页https://omni-avatar.github.io/
模型下载https://huggingface.co/OmniAvatar/OmniAvatar-14B
代码开源https://github.com/Omni-Avatar/OmniAvatar
技术论文https://arxiv.org/abs/2506.18866

💎 最后的小贴士:当前版本仍为研究级模型,生成1分钟视频需约8GB显存。商业应用建议关注后续轻量化版本(团队已在推进中)。
用AI释放创造力,让人人成为虚拟导演!🎬✨


© 版权声明

相关文章

暂无评论

none
暂无评论...