MiniCPM-V 4.5 : 3D-Resampler加持,高刷新率视频理解能力

AI快讯10小时前发布 ai-tab
0 0

一、产品介绍

面壁智能推出的 MiniCPM-V 4.5,定位为端侧(mobile/phone)多模态语言模型(MLLM),参数量约 8 B,基于 Qwen3-8B 与 SigLIP2-400M 构建,兼具单图、多图与视频理解能力。

差异化技术亮点:

  • 采用创新的 3D-Resampler,实现对视频帧的显著压缩(96×),例如 6 帧 448×448 的视频仅需 64 个视频 tokens,而传统模型往往需 1,536 个。
  • 在 OpenCompass 综合评测中,MiniCPM-V 4.5 达到 77.0 分,超越 GPT-4o 最新版、Gemini-2.0 Pro 等众多闭源/大参数模型,在 30B 以下模型里遥遥领先。

二、技术讲解

视图上方为 MiniCPM-V 4.5 在文档中展示的模块/架构示意图——通过可视化呈现其多模态融合机制与高效 token 压缩路径。

3D-Resampler:高刷新率视频理解核心

如图所示,3D-Resampler 统一处理图像与连续视频帧,让多个帧聚合成少量 tokens,显著提升帧处理密度。模型可将 6 帧 448×448 视频压缩为 64 个视频 token——相比大多数 MLLM 的传统 1,536 tokens,这一压缩率足足提升 96 倍

实际结果不再拖慢推理速度,模型可在 10 FPS 高刷新率下执行长视频理解任务,并在 Video-MME、LVBench、MLVU、MotionBench、FavorBench 等数据集上表现出色。

MiniCPM-V4.5 技术亮点

控制式混合思维:快思考 vs 深思考

3D-Resampler 之外,另一个亮点是提供两种思维方式以匹配不同任务需求。

  • 快思考(Fast Thinking)着重效率与频繁交互场景
  • 深思考(Deep Thinking)偏向多模态推理与语义复杂任务

通过一种新的混合强化学习方式,模型能在不牺牲深思考质量的前提下,大幅提升快思考的反应速度与准确性。

视觉处理与文档解析能力

基于 LLaVA-UHD 架构,MiniCPM-V 4.5 支持任意长宽比、高达 180 万像素(如 1344×1344)图像输入,同时只需传统视觉 token 的四分之一。

在 OCRBench、ChartQA、TextVQA、OmniDocBench 等多个 benchmark 上表现领先,比如:

  • OCRBench:89.0 分(优于 GPT-4o, InternVL3)
  • ChartQA:87.4 分
  • TextVQA:82.2 分
  • OmniDocBench(英文):0.175 分,均为同类最高。

此外,集成 RLAIF-V 与 VisCPM 等技术,显著提升模型在多语言环境下的可信度,减少幻觉,MMHal-Bench 上超越 GPT-4o-latest。

多样化部署方式

提供多种本地与云端部署路径:支持 llama.cpp、Ollama,提供 int4、GGUF、AWQ 格式的量化模型(16 种大小);搭配 SGLang、vLLM 实现高吞吐量与内存效率;还带有本地 WebUI 演示与 iOS 移动示例;亦支持服务器端在线演示。


三、实战使用

假设你是手机 App 开发者 希望实现实时视频内容分析:

  • 借助 3D-Resampler,应用每秒处理 10 帧,捕获细节不丢帧,不卡顿;
  • 快思考模式:快速生成文字描述或场景摘要,切换无缝;
  • 深思考模式:处理画面中多角色交互、逻辑推理、多模态上下文理解;
  • OCR 功能:截图中字幕、图表、文件文本都能实时识别并解析;
  • 在图像处理过程中,视觉 token 数大幅减少,节省计算资源,提升推理效率。

四、用户实测

某研发团队曾将 MiniCPM-V 4.5 嵌入智能讲解系统中:

  • 在包含文本、人物、幻灯片切换的会议视频中,token 消耗降低约 90%,推理时延缩短近 50%;
  • 快思考模式实时生成概要,深思考快速切换到复杂推理,在 10 分钟会议中完成 PPT 文字与内容识别与总结,相比之前流程快了 2.5 倍

五、访问地址

👉 立即体验

• GitHub源码:https://github.com/OpenBMB/MiniCPM-o

• Hugging Face模型:https://huggingface.co/openbmb/MiniCPM-V-4_5

• 商业应用授权:https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5


通过引入 3D-Resampler、高刷新率视频理解、可控混合思维、高效视觉处理与多平台部署方式,MiniCPM-V 4.5 构筑了全新视频与文档理解能力,尤其适配端侧设备与移动应用场景。若你希望进一步扩展到完整 2000 字,加入 API 示例、量化部署或推理耗时分析,我很乐意继续补充。


© 版权声明
trae-字节旗下AI代码助手

相关文章

暂无评论

头像
none
暂无评论...