小米AI双突破:Q-Frame视频理解与Any-SSR持续学习框架

AI快讯1周前发布 ai-tab
11 0

一、产品介绍

天呐!小米这次在全球计算机视觉顶会ICCV 2025上直接放出双王炸!面对11239篇投稿仅24%录用率的残酷竞争,小米AI团队的Q-Frame视频理解技术Any-SSR持续学习框架双双入选,简直不要太厉害!这不仅是学术认可,更是小米在“人车家全生态”战略下AI技术落地的关键突破。

作为研发投入五年超千亿的科技巨头,小米2025年单年AI投入就达75亿,未来五年还将追加2000亿研发资金。这次两项技术已融入手机哨兵模式、新零售客服、智能家居等场景,真正让实验室成果走进了千万用户的生活!

小米AI双突破:Q-Frame视频理解与Any-SSR持续学习框架

二、适用人群

  1. AI开发者:需要视频理解或持续学习能力的工程团队
  2. 智能硬件产品经理:规划车载监控/智能家居功能的决策者
  3. 零售数字化转型负责人:解决海量商品知识更新的运营者

三、核心功能与技术原理

小米Q-Frame与Any-SSR的5大硬核能力解析:

功能模块技术亮点实现效果
动态帧选择(QFS)通过跨模态对齐提取关键帧信息量提升5倍
分辨率自适应(MRA)按内容重要性动态降采样算力消耗降低40%
子空间路由(Any-SSR)任务路由至独立参数子空间旧任务遗忘率<0.1%
低秩知识融合(LoRA)矩阵分解实现参数高效更新新任务学习速度提升3倍
跨模型兼容无需微调即插即用支持GPT-4o/Qwen等主流模型

🔍 1. Q-Frame视频理解三连击

  • 跨模态查询检索(CQR)
    通过文本查询向量与视频帧特征的实时匹配,精准锁定相关画面。比如说用户问“视频里有没有出现黑猫?”,模型直接定位到第3分12秒的黑猫特写帧
  • 查询感知帧选择(QFS)
    基于注意力权重的动态采样,告别传统均匀抽帧的盲目性。在小米YU7哨兵模式中,自动忽略树叶摇动却精准捕捉车辆靠近画面
  • 多分辨率自适应(MRA)
    对关键帧保持高清解析,背景帧智能降分辨率。实测中使GPU资源消耗直降40%,妥妥的省电黑科技

🧠 2. Any-SSR根治遗忘症

采用递归最小二乘法(RLS)+低秩适应(LoRA) 双剑合璧:

  1. 分析路由机制:像快递分拣般把不同任务分配到独立参数子空间
  2. 梯度隔离技术:冻结旧任务参数空间,新任务学习不干扰原有知识
  3. 动态知识融合:通过低秩矩阵实现新旧知识无缝拼接

实测在TRACE基准测试中实现零知识遗忘(BWT=0),零售场景商品知识库更新时,旧产品召回率保持99.8%


四、工具使用技巧

🎥 Q-Frame视频处理实操

# 小米开放平台示例代码(简化版)
from qframe import AdaptiveProcessor

processor = AdaptiveProcessor(
    query="识别危险接近行为",  # 用户问题文本
    resolution_strategy="dynamic", # 启用动态分辨率
    keyframe_ratio=0.3 # 关键帧提取比例
)

result = processor.process_video("parking_lot.mp4")
print(result["key_frames"]) # 输出危险行为关键帧时间戳
  • 调参秘籍:
    • 安防场景:设keyframe_ratio=0.4+启用高敏检测模式
    • 教育视频:启用temporal_smoothing避免关键帧跳跃

🔄 Any-SSR持续学习部署

  1. 知识分区:按产品类目创建独立子空间(手机/家电/智能硬件)
  2. 热更新机制:新品类上线时仅训练新增参数子模块
  3. 遗忘监控:设置知识回溯测试集,每周自动验证旧知识保留率

五、访问地址

👉 技术白皮书下载
MITL小米AI实验室官网

👉 体验预置模型
HuggingFace模型库


说到底,这两项技术最戳中痛点的是——让AI像人一样懂得“重点看什么”和“学了不忘”!从汽车哨兵模式精准识险,到店员AI助手熟记万款商品,技术最终回归到人性化体验。更不用说小米YU7用户已经能在夜间安心停车,全靠Q-Frame从模糊画面中锁定风险帧呢~

下一个彩蛋:据内部消息,Q-Frame的跨模态能力正接入小米机器人视觉系统… 这才是真·人车家全生态呀!


© 版权声明

相关文章

暂无评论

none
暂无评论...