一、产品介绍
天呐!小米这次在全球计算机视觉顶会ICCV 2025上直接放出双王炸!面对11239篇投稿仅24%录用率的残酷竞争,小米AI团队的Q-Frame视频理解技术和Any-SSR持续学习框架双双入选,简直不要太厉害!这不仅是学术认可,更是小米在“人车家全生态”战略下AI技术落地的关键突破。
作为研发投入五年超千亿的科技巨头,小米2025年单年AI投入就达75亿,未来五年还将追加2000亿研发资金。这次两项技术已融入手机哨兵模式、新零售客服、智能家居等场景,真正让实验室成果走进了千万用户的生活!

二、适用人群
- AI开发者:需要视频理解或持续学习能力的工程团队
- 智能硬件产品经理:规划车载监控/智能家居功能的决策者
- 零售数字化转型负责人:解决海量商品知识更新的运营者
三、核心功能与技术原理
小米Q-Frame与Any-SSR的5大硬核能力解析:
功能模块 | 技术亮点 | 实现效果 |
---|---|---|
动态帧选择(QFS) | 通过跨模态对齐提取关键帧 | 信息量提升5倍 |
分辨率自适应(MRA) | 按内容重要性动态降采样 | 算力消耗降低40% |
子空间路由(Any-SSR) | 任务路由至独立参数子空间 | 旧任务遗忘率<0.1% |
低秩知识融合(LoRA) | 矩阵分解实现参数高效更新 | 新任务学习速度提升3倍 |
跨模型兼容 | 无需微调即插即用 | 支持GPT-4o/Qwen等主流模型 |
🔍 1. Q-Frame视频理解三连击
- 跨模态查询检索(CQR)
通过文本查询向量与视频帧特征的实时匹配,精准锁定相关画面。比如说用户问“视频里有没有出现黑猫?”,模型直接定位到第3分12秒的黑猫特写帧 - 查询感知帧选择(QFS)
基于注意力权重的动态采样,告别传统均匀抽帧的盲目性。在小米YU7哨兵模式中,自动忽略树叶摇动却精准捕捉车辆靠近画面 - 多分辨率自适应(MRA)
对关键帧保持高清解析,背景帧智能降分辨率。实测中使GPU资源消耗直降40%,妥妥的省电黑科技
🧠 2. Any-SSR根治遗忘症
采用递归最小二乘法(RLS)+低秩适应(LoRA) 双剑合璧:
- 分析路由机制:像快递分拣般把不同任务分配到独立参数子空间
- 梯度隔离技术:冻结旧任务参数空间,新任务学习不干扰原有知识
- 动态知识融合:通过低秩矩阵实现新旧知识无缝拼接
实测在TRACE基准测试中实现零知识遗忘(BWT=0),零售场景商品知识库更新时,旧产品召回率保持99.8%
四、工具使用技巧
🎥 Q-Frame视频处理实操
# 小米开放平台示例代码(简化版)
from qframe import AdaptiveProcessor
processor = AdaptiveProcessor(
query="识别危险接近行为", # 用户问题文本
resolution_strategy="dynamic", # 启用动态分辨率
keyframe_ratio=0.3 # 关键帧提取比例
)
result = processor.process_video("parking_lot.mp4")
print(result["key_frames"]) # 输出危险行为关键帧时间戳
- 调参秘籍:
- 安防场景:设
keyframe_ratio=0.4
+启用高敏检测模式 - 教育视频:启用
temporal_smoothing
避免关键帧跳跃
- 安防场景:设
🔄 Any-SSR持续学习部署
- 知识分区:按产品类目创建独立子空间(手机/家电/智能硬件)
- 热更新机制:新品类上线时仅训练新增参数子模块
- 遗忘监控:设置知识回溯测试集,每周自动验证旧知识保留率
五、访问地址
👉 技术白皮书下载:
MITL小米AI实验室官网
👉 体验预置模型:
HuggingFace模型库
说到底,这两项技术最戳中痛点的是——让AI像人一样懂得“重点看什么”和“学了不忘”!从汽车哨兵模式精准识险,到店员AI助手熟记万款商品,技术最终回归到人性化体验。更不用说小米YU7用户已经能在夜间安心停车,全靠Q-Frame从模糊画面中锁定风险帧呢~
下一个彩蛋:据内部消息,Q-Frame的跨模态能力正接入小米机器人视觉系统… 这才是真·人车家全生态呀!
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...