MiniCPM-V 4.5 : 3D-Resampler加持，高刷新率视频理解能力

AI快讯11个月前发布 ai-tab

159 0

一、产品介绍

面壁智能推出的 MiniCPM-V 4.5，定位为端侧（mobile/phone）多模态语言模型（MLLM），参数量约 8 B，基于 Qwen3-8B 与 SigLIP2-400M 构建，兼具单图、多图与视频理解能力。

差异化技术亮点：

采用创新的 3D-Resampler，实现对视频帧的显著压缩（96×），例如 6 帧 448×448 的视频仅需 64 个视频 tokens，而传统模型往往需 1,536 个。
在 OpenCompass 综合评测中，MiniCPM-V 4.5 达到 77.0 分，超越 GPT-4o 最新版、Gemini-2.0 Pro 等众多闭源/大参数模型，在 30B 以下模型里遥遥领先。

二、技术讲解

视图上方为 MiniCPM-V 4.5 在文档中展示的模块/架构示意图——通过可视化呈现其多模态融合机制与高效 token 压缩路径。

3D-Resampler：高刷新率视频理解核心

如图所示，3D-Resampler 统一处理图像与连续视频帧，让多个帧聚合成少量 tokens，显著提升帧处理密度。模型可将 6 帧 448×448 视频压缩为 64 个视频 token——相比大多数 MLLM 的传统 1,536 tokens，这一压缩率足足提升 96 倍 。

实际结果不再拖慢推理速度，模型可在 10 FPS 高刷新率下执行长视频理解任务，并在 Video-MME、LVBench、MLVU、MotionBench、FavorBench 等数据集上表现出色。

MiniCPM-V4.5 技术亮点

控制式混合思维：快思考 vs 深思考

3D-Resampler 之外，另一个亮点是提供两种思维方式以匹配不同任务需求。

快思考（Fast Thinking）着重效率与频繁交互场景
深思考（Deep Thinking）偏向多模态推理与语义复杂任务

通过一种新的混合强化学习方式，模型能在不牺牲深思考质量的前提下，大幅提升快思考的反应速度与准确性。

视觉处理与文档解析能力

基于 LLaVA-UHD 架构，MiniCPM-V 4.5 支持任意长宽比、高达 180 万像素（如 1344×1344）图像输入，同时只需传统视觉 token 的四分之一。

在 OCRBench、ChartQA、TextVQA、OmniDocBench 等多个 benchmark 上表现领先，比如：

OCRBench：89.0 分（优于 GPT-4o, InternVL3）
ChartQA：87.4 分
TextVQA：82.2 分
OmniDocBench（英文）：0.175 分，均为同类最高。

此外，集成 RLAIF-V 与 VisCPM 等技术，显著提升模型在多语言环境下的可信度，减少幻觉，MMHal-Bench 上超越 GPT-4o-latest。

多样化部署方式

提供多种本地与云端部署路径：支持 llama.cpp、Ollama，提供 int4、GGUF、AWQ 格式的量化模型（16 种大小）；搭配 SGLang、vLLM 实现高吞吐量与内存效率；还带有本地 WebUI 演示与 iOS 移动示例；亦支持服务器端在线演示。

三、实战使用

假设你是手机 App 开发者希望实现实时视频内容分析：

借助 3D-Resampler，应用每秒处理 10 帧，捕获细节不丢帧，不卡顿；
快思考模式：快速生成文字描述或场景摘要，切换无缝；
深思考模式：处理画面中多角色交互、逻辑推理、多模态上下文理解；
OCR 功能：截图中字幕、图表、文件文本都能实时识别并解析；
在图像处理过程中，视觉 token 数大幅减少，节省计算资源，提升推理效率。

四、用户实测

某研发团队曾将 MiniCPM-V 4.5 嵌入智能讲解系统中：

在包含文本、人物、幻灯片切换的会议视频中，token 消耗降低约 90%，推理时延缩短近 50%；
快思考模式实时生成概要，深思考快速切换到复杂推理，在 10 分钟会议中完成 PPT 文字与内容识别与总结，相比之前流程快了 2.5 倍。

五、访问地址

? 立即体验

• GitHub源码：https://github.com/OpenBMB/MiniCPM-o

• Hugging Face模型：https://huggingface.co/openbmb/MiniCPM-V-4_5

• 商业应用授权：https://www.modelscope.cn/models/OpenBMB/MiniCPM-V-4_5

通过引入 3D-Resampler、高刷新率视频理解、可控混合思维、高效视觉处理与多平台部署方式，MiniCPM-V 4.5 构筑了全新视频与文档理解能力，尤其适配端侧设备与移动应用场景。若你希望进一步扩展到完整 2000 字，加入 API 示例、量化部署或推理耗时分析，我很乐意继续补充。

AI快讯 # ai多模态模型 # ai模型

© 版权声明

文章版权归作者所有，未经允许请勿转载。

trae-字节旗下AI代码助手

相关文章

OpenAI金牌模型对IMO难题坦承“不会”，被指有“自我意识”

OpenAI金牌模型对IMO难题坦承“不会”，被指有“自我意识”

11个月前

苹果HomePad延期真相！Siri拖累7英寸智能中控屏至2026年上市

苹果HomePad延期真相！Siri拖累7英寸智能中控屏至2026年上市

1年前

Hugging Face开源3B参数模型SmolLM3：多语言推理新标杆，性能碾压同级

Hugging Face开源3B参数模型SmolLM3：多语言推理新标杆，性能碾压同级

1年前

谷歌印度AI订阅计划Helium上线！250卢比解锁顶级AI工具，本土化战略大升级！

谷歌印度AI订阅计划Helium上线！250卢比解锁顶级AI工具，本土化战略大升级！

11个月前

暂无评论

none

暂无评论...