为什么长视频总是“失忆”?
当镜头从街道全景切换到橱窗特写,再转回街道时,路灯突然消失、行人改换衣着——这类“场景失忆”现象是当前AI视频生成的致命短板。传统模型依赖固定上下文窗口,仅能保留最近几帧信息,导致生成长视频时物体位置、光照、纹理等静态元素无法持久稳定。香港大学与快手可灵团队的最新研究指出:问题的核心在于缺乏可动态调用的场景记忆系统。

Context as Memory:用历史帧构建记忆库
2025年8月,团队在论文《Context as Memory: Scene-Consistent Interactive Long Video Generation with Memory Retrieval》中提出突破性方案。其技术架构包含两层创新:
- 记忆存储机制
抛弃显式3D建模,将历史生成的所有视频帧转化为“记忆库”。模型在自回归生成过程中,将当前帧与历史帧隐式关联,构建时空一致的3D场景先验。例如生成“室内全景→书桌特写→返回全景”序列时,书架位置、桌面物品等元素在多次镜头切换后仍保持稳定。 - 动态记忆检索
为降低海量历史帧的计算负担,团队设计基于相机轨迹的视场重叠判断算法(FOV-based Retrieval):- 计算预测帧与历史帧的相机视场空间关系
- 仅筛选视场重叠度>30%的关键帧作为记忆条件
- 使模型训练成本降低67%,推理速度提升2.1倍
从“碎片世界”到连贯时空
在Unreal Engine 5构建的多样化场景测试中,Context as Memory展现出三类能力跃迁:
- 静态场景记忆
沙漠中的仙人掌在镜头环绕拍摄30秒后仍保持位置与形态一致,影子方向随光线自然变化 - 动态物理模拟
水流持续填充杯子的过程中,水位线上升轨迹符合流体力学,且杯壁反光持续存在 - 开放域泛化
对未见过的古城废墟场景,模型能自主推断石块纹理、柱体结构等元素的空间关系
与Google Genie3的“隐形竞争”
Google DeepMind同期发布的Genie3因未公开技术细节引发猜测。而港大团队透露,Context as Memory的投稿时间早于Genie3发布,且两项技术存在共性突破:
- 均通过隐式学习视频数据的3D先验(无需3D点云标注)
- 支持用户输入单张图片+相机轨迹,自由探索生成空间
关键差异在于:
Context as Memory | Genie3(推测) | |
---|---|---|
记忆机制 | 显式历史帧检索 | 隐式潜在编码 |
可控性 | 支持轨迹输入 | 未公开控制接口 |
开源进度 | 代码/数据已公开 | 未开源 |
快影APP的“时空编辑”功能
快手已将该项技术集成至可灵2.1视频大模型。用户实测发现两大进化:
- 首尾帧控制
输入起始帧(晨曦森林)与目标帧(暮色森林),模型自动生成平滑过渡序列,树木投影角度随太阳位置同步渐变 - 动态元素修改
在已生成视频中,通过文本指令“增加飞鸟”,模型在天空区域插入鸟群,且翅膀扇动频率与背景风速匹配
“这相当于为视频创作者提供时空编辑轴,”快影产品经理在访谈中比喻,“过去修改一处细节需重新生成整段视频,现在只需修正关键帧的记忆节点。”
记忆系统如何赋能AI架构?
Context as Memory的底层思想与主流记忆增强方案形成共振:
- 分层记忆结构
如LangChain的Memory模块将记忆分为:- 短期(对话历史)
- 中期(主题摘要)
- 长期(用户偏好)
视频记忆可视为“空间型长期记忆”的子类
- 向量化压缩
Kbalm框架证明:知识经向量压缩后注入模型,能在有限上下文窗口存储更高密度信息。这与视频帧的检索逻辑异曲同工
从场景记忆到交互引擎
研究团队正在推进两大延伸方向:
- 跨模态记忆绑定
将音频波形、物理碰撞声效与视觉记忆关联,实现踩雪声随积雪厚度变化的沉浸式生成 - 实时交互游戏引擎
基于ICCV 2025获奖论文GameFactory,探索用视频记忆构建可交互游戏世界:- 玩家推开房门时触发门轴摩擦声记忆
- NPC运动轨迹符合历史物理约束
“记忆系统将成为世界模型的中央调度器,”论文通讯作者总结,“当AI能像人类一样调用有序时空记忆,影视创作、自动驾驶测试、数字孪生等领域将迎来生产力革命。”
? 立即体验场景记忆生成:https://www.kuaishou.com/technology/kolin
本文基于学术论文与产品实测,规避营销话术,聚焦技术突破与产业影响。引用数据截至2025年8月22日。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...