智谱开源GLM-4.5系列模型并发布技术报告,进一步推动技术普惠

AI快讯5天前发布 ai-tab
40 0

一、产品介绍

智谱AI(Zhipu AI)于2025年8月开源新一代旗舰模型 GLM-4.5系列,包括:

  • GLM-4.5V:1060亿参数视觉推理模型,支持图像/视频理解与GUI操作
  • GLM-4.5-Air:轻量版模型,兼顾性能与效率
    模型基于MoE(混合专家)架构,通过三阶段训练策略(预训练+中期训练+后训练)实现ARC能力融合(智能体+推理+编码),技术报告同步发布于arXiv与GitHub。
智谱开源GLM-4.5系列模型并发布技术报告,进一步推动技术普惠

👥 适用人群

  1. AI开发者:需快速接入多模态能力的应用构建者
  2. 企业技术团队:寻求自动化代码生成、GUI操作解决方案
  3. 科研机构:研究视觉推理、长上下文建模的技术探索者
  4. 教育领域:STEM学科教学工具开发者

⚙️ 核心功能与技术实现

功能技术实现原理说明
多模态视觉推理视觉编码器+MLP适配器+语言解码器三模块协作;三维旋转位置编码(3D-RoPE)强化空间感知
长上下文支持支持64K多模态上下文,采用双三次插值机制处理极端宽高比图像
GUI智能体操作实时截屏/录屏解析界面元素,通过强化学习框架Slime优化交互轨迹生成
代码复现能力根据网页截图生成HTML/CSS代码,基于仓库级代码训练理解跨文件依赖
多模态文档解析直接读取PDF/PPT图表结构,避免OCR错误传递,保留表格与图表语义
思考模式开关用户可控制模型启用“思维链”推理(复杂任务)或即时响应(简单任务)

🧠 技术原理深度解析

  1. 架构创新

    • 采用“瘦高型”MoE架构:减少宽度、增加深度,提升推理效率(对比DeepSeek-V3)
    • 引入QK-Norm技术稳定注意力分布,分组查询注意力(Grouped-Query Attention)加速计算
  2. 训练流程优化

    graph LR
    A[预训练] --> B[中期训练]
    B --> C[后训练]
    subgraph 创新点
    B --> B1(代码仓库级训练)
    B --> B2(合成推理数据增强)
    B --> B3(128K长序列扩展)
    C --> C1(SFT监督微调)
    C --> C2(RL强化学习:推理/智能体/通用)
    end
    • 中期训练:拼接GitHub仓库文件学习跨文件依赖,合成数理逻辑数据强化推理链
    • 强化学习框架Slime
      • 异步解耦架构:分离训练引擎与交互环境,FP8混合精度推理加速数据生成
      • 支持课程学习:按难度分级训练,避免早期奖励失效问题

💡 工具使用技巧

  1. 网页复刻高效流程

    • 使用桌面助手局部录屏 → 压缩视频 → 生成前端代码(10分钟内完成)
      ⚠️ 避免整页截图,优先局部交互区域录制
  2. 炸鸡辨别小能手

    • 上传炸鸡图片,提问:“分析色泽与外皮质感差异”,模型从油光分布、脆皮层厚度输出对比报告
  3. API成本控制

    • 输入Token单价¥2/百万,输出¥6/百万
    • 启用FP8量化版本降低推理资源占用

🌐 访问地址


技术普惠的本质,是让复杂能力变得简单可调用。GLM-4.5在炸鸡辨别与卫星图像解析间自由切换的能力,正是AI平民化的最佳注脚。🎯


© 版权声明
trae-字节旗下AI代码助手

相关文章

暂无评论

用户头像
none
暂无评论...