港城大开源Pusa V1.0视频模型：500美元训练成本刷新SOTA记录

97 0

? 产品介绍

由香港城市大学刘耀芳团队联合华为香港研究所开发的Pusa V1.0，是基于14B参数基础模型Wan-T2V-14B的微调版本。其命名寓意“技术普渡众生”，旨在降低视频生成技术门槛，让每位创作者都能轻松实现动态视觉表达。

适用人群速查表

人群类型	应用场景	核心价值
AI研究者	模型微调实验	开源自研框架，支持二次开发
内容创作者	短视频素材生成	10步推理快速产出动态内容
影视工作室	视频过渡/扩展	首尾帧自动补全中间画面
教育机构	教学动画制作	静态图解转动态演示

? 核心功能与技术解析

1. 图像转视频（I2V）

技术突破：采用帧级独立时间编码，对输入图像的起始帧锁定时间步为零，其余帧分配独立时间变量。
效果：静态图转动态视频时，细节保留度提升32%，如太空攀岩者场景中光影流动更自然。

2. 视频扩展（Video Extending）

技术原理：通过条件锁定机制，将用户提供的首尾帧作为约束节点，VTA自动解算中间帧运动轨迹。
案例：存钱罐小猪从桌面跳转至大溪地冲浪场景，过渡帧率达60fps。

3. 文字驱动编辑（Text-guided Editing）

实现方式：在矢量时间步中注入文本嵌入向量，动态修改视频元素属性。
典型应用：输入“金色汽车变白色”，实现车辆颜色渐变（见下方对比）：

原始帧 → 编辑帧：▰▰▰▰ → ▱▱▱▱

4. 视频转场（Scene Transition）

创新点：运用概率性时间步采样（PTSS） 解耦时序动态，实现多场景无缝衔接。

5. 零样本多任务支持

技术优势：非破坏性微调保留基础模型文生视频能力，新增功能无需额外训练。

?️ 工具使用技巧

低成本复现指南
- 使用8×A100 GPU环境
- 加载Wan-T2V-14B基础权重
- 运行VTA微调脚本（约500美元成本）

10步高效推理

# Pusa典型推理流程
pusa.generate(
input_type="image", 
content="攀岩者.jpg",
time_steps=[0, 3, 5, 7, 10],  # 向量化时间步配置
steps=10  # 去噪步数压缩至10步
)

效果增强策略
- 动态平滑：对快速运动场景，增加时间步方差阈值
- 细节强化：锁定关键帧时间步为零，避免特征丢失

? 访问地址

项目主页：https://yaofang-liu.github.io/Pusa_Web/
GitHub仓库：https://github.com/Yaofang-Liu/Pusa-VidGen
模型下载：HuggingFace社区

更令人惊喜的是，团队开源了3860对训练视频数据集，创作者可直接复现SOTA效果！? 快用Pusa为你的创意插上翅膀吧~
技术不是神坛上的贡品，而是创作者手中的法器。—— Pusa开发团队宣言

AI快讯

文章版权归作者所有，未经允许请勿转载。

零一万物推出万智平台2.0及Agent“万仔”，李开复倡导“一把手工程”

AI快讯

3个月前

XBOW：成全美第一“黑客”，完成7500万美元B轮融资

AI快讯

3个月前

美国Spear AI获首轮230万美元融资，助军方运用AI破译潜艇数据

AI快讯

3个月前

苹果“Charismatic”系统：2026重构智能家居，2027定义机器人交互

AI快讯

2个月前

暂无评论

暂无评论...

港城大开源Pusa V1.0视频模型：500美元训练成本刷新SOTA记录

? 产品介绍

适用人群速查表

? 核心功能与技术解析

1. 图像转视频（I2V）

2. 视频扩展（Video Extending）

3. 文字驱动编辑（Text-guided Editing）

4. 视频转场（Scene Transition）

5. 零样本多任务支持

?️ 工具使用技巧

? 访问地址

Goedel-Prover-V2：普林斯顿32B数学定理证明模型刷新SOTA

Willow Voice完成420万美元融资，AI语音输入工具如何重塑高效办公？

相关文章

零一万物推出万智平台2.0及Agent“万仔”，李开复倡导“一把手工程”

XBOW：成全美第一“黑客”，完成7500万美元B轮融资

美国Spear AI获首轮230万美元融资，助军方运用AI破译潜艇数据

苹果“Charismatic”系统：2026重构智能家居，2027定义机器人交互

暂无评论

热门文章

港城大开源Pusa V1.0视频模型：500美元训练成本刷新SOTA记录

? 产品介绍

适用人群速查表

? 核心功能与技术解析

1. 图像转视频（I2V）

2. 视频扩展（Video Extending）

3. 文字驱动编辑（Text-guided Editing）

4. 视频转场（Scene Transition）

5. 零样本多任务支持

?️ 工具使用技巧

? 访问地址

Goedel-Prover-V2：普林斯顿32B数学定理证明模型刷新SOTA

Willow Voice完成420万美元融资，AI语音输入工具如何重塑高效办公？

相关文章

零一万物推出万智平台2.0及Agent“万仔”，李开复倡导“一把手工程”

XBOW：成全美第一“黑客”，完成7500万美元B轮融资

美国Spear AI获首轮230万美元融资，助军方运用AI破译潜艇数据

​苹果“Charismatic”系统：2026重构智能家居，2027定义机器人交互​

暂无评论

热门文章

苹果“Charismatic”系统：2026重构智能家居，2027定义机器人交互