港城大开源Pusa V1.0视频模型:500美元训练成本刷新SOTA记录

AI快讯16小时前发布 ai-tab
6 0

🌟 产品介绍

香港城市大学刘耀芳团队联合华为香港研究所开发的Pusa V1.0,是基于14B参数基础模型Wan-T2V-14B的微调版本。其命名寓意“技术普渡众生”,旨在降低视频生成技术门槛,让每位创作者都能轻松实现动态视觉表达。

港城大开源Pusa V1.0视频模型:500美元训练成本刷新SOTA记录

适用人群速查表

人群类型应用场景核心价值
AI研究者模型微调实验开源自研框架,支持二次开发
内容创作者短视频素材生成10步推理快速产出动态内容
影视工作室视频过渡/扩展首尾帧自动补全中间画面
教育机构教学动画制作静态图解转动态演示

🚀 核心功能与技术解析

1. 图像转视频(I2V)

技术突破:采用帧级独立时间编码,对输入图像的起始帧锁定时间步为零,其余帧分配独立时间变量。
效果:静态图转动态视频时,细节保留度提升32%,如太空攀岩者场景中光影流动更自然。

2. 视频扩展(Video Extending)

技术原理:通过条件锁定机制,将用户提供的首尾帧作为约束节点,VTA自动解算中间帧运动轨迹。
案例:存钱罐小猪从桌面跳转至大溪地冲浪场景,过渡帧率达60fps。

3. 文字驱动编辑(Text-guided Editing)

实现方式:在矢量时间步中注入文本嵌入向量,动态修改视频元素属性。
典型应用:输入“金色汽车变白色”,实现车辆颜色渐变(见下方对比):

原始帧 → 编辑帧:▰▰▰▰ → ▱▱▱▱

4. 视频转场(Scene Transition)

创新点:运用概率性时间步采样(PTSS) 解耦时序动态,实现多场景无缝衔接。

5. 零样本多任务支持

技术优势:非破坏性微调保留基础模型文生视频能力,新增功能无需额外训练。


🛠️ 工具使用技巧

  1. 低成本复现指南

    • 使用8×A100 GPU环境
    • 加载Wan-T2V-14B基础权重
    • 运行VTA微调脚本(约500美元成本)
  2. 10步高效推理

    # Pusa典型推理流程
    pusa.generate(
    input_type="image", 
    content="攀岩者.jpg",
    time_steps=[0, 3, 5, 7, 10],  # 向量化时间步配置
    steps=10  # 去噪步数压缩至10步
    )
  3. 效果增强策略

    • 动态平滑:对快速运动场景,增加时间步方差阈值
    • 细节强化:锁定关键帧时间步为零,避免特征丢失

🔗 访问地址

更令人惊喜的是,团队开源了3860对训练视频数据集,创作者可直接复现SOTA效果!🎉 快用Pusa为你的创意插上翅膀吧~

技术不是神坛上的贡品,而是创作者手中的法器。—— Pusa开发团队宣言


© 版权声明

相关文章

暂无评论

none
暂无评论...