一、产品介绍
智谱AI(Zhipu AI)于2025年8月开源新一代旗舰模型 GLM-4.5系列,包括:
- GLM-4.5V:1060亿参数视觉推理模型,支持图像/视频理解与GUI操作
- GLM-4.5-Air:轻量版模型,兼顾性能与效率
模型基于MoE(混合专家)架构,通过三阶段训练策略(预训练+中期训练+后训练)实现ARC能力融合(智能体+推理+编码),技术报告同步发布于arXiv与GitHub。

👥 适用人群
- AI开发者:需快速接入多模态能力的应用构建者
- 企业技术团队:寻求自动化代码生成、GUI操作解决方案
- 科研机构:研究视觉推理、长上下文建模的技术探索者
- 教育领域:STEM学科教学工具开发者
⚙️ 核心功能与技术实现
功能 | 技术实现原理说明 |
---|---|
多模态视觉推理 | 视觉编码器+MLP适配器+语言解码器三模块协作;三维旋转位置编码(3D-RoPE)强化空间感知 |
长上下文支持 | 支持64K多模态上下文,采用双三次插值机制处理极端宽高比图像 |
GUI智能体操作 | 实时截屏/录屏解析界面元素,通过强化学习框架Slime优化交互轨迹生成 |
代码复现能力 | 根据网页截图生成HTML/CSS代码,基于仓库级代码训练理解跨文件依赖 |
多模态文档解析 | 直接读取PDF/PPT图表结构,避免OCR错误传递,保留表格与图表语义 |
思考模式开关 | 用户可控制模型启用“思维链”推理(复杂任务)或即时响应(简单任务) |
🧠 技术原理深度解析
架构创新
- 采用“瘦高型”MoE架构:减少宽度、增加深度,提升推理效率(对比DeepSeek-V3)
- 引入QK-Norm技术稳定注意力分布,分组查询注意力(Grouped-Query Attention)加速计算
训练流程优化
graph LR A[预训练] --> B[中期训练] B --> C[后训练] subgraph 创新点 B --> B1(代码仓库级训练) B --> B2(合成推理数据增强) B --> B3(128K长序列扩展) C --> C1(SFT监督微调) C --> C2(RL强化学习:推理/智能体/通用) end
- 中期训练:拼接GitHub仓库文件学习跨文件依赖,合成数理逻辑数据强化推理链
- 强化学习框架Slime:
- 异步解耦架构:分离训练引擎与交互环境,FP8混合精度推理加速数据生成
- 支持课程学习:按难度分级训练,避免早期奖励失效问题
💡 工具使用技巧
网页复刻高效流程
- 使用桌面助手局部录屏 → 压缩视频 → 生成前端代码(10分钟内完成)
⚠️ 避免整页截图,优先局部交互区域录制
- 使用桌面助手局部录屏 → 压缩视频 → 生成前端代码(10分钟内完成)
炸鸡辨别小能手
- 上传炸鸡图片,提问:“分析色泽与外皮质感差异”,模型从油光分布、脆皮层厚度输出对比报告
API成本控制
- 输入Token单价¥2/百万,输出¥6/百万
- 启用FP8量化版本降低推理资源占用
🌐 访问地址
- 开源模型:
https://github.com/zai-org/GLM-4.5|https://huggingface.co/collections/zai-org/glm-45v-68999032ddf8ecf7dcdbc102|https://modelscope.cn/collections/GLM-45V-8b471c8f97154e - API平台:https://www.bigmodel.cn (赠2000万Tokens体验包)
- 桌面助手:https://huggingface.co/spaces/zai-org/GLM-4.5V-Demo-App (仅支持非Intel芯片)
技术普惠的本质,是让复杂能力变得简单可调用。GLM-4.5在炸鸡辨别与卫星图像解析间自由切换的能力,正是AI平民化的最佳注脚。🎯
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...