云天励飞全面聚焦AI推理芯片！2028年单芯片算力剑指数千TOPS，国产算力迎来“加速器”

336 0

产品介绍

云天励飞（股票代码：688343）作为国内少数具备算法+芯片全栈能力的AI企业，近日在2025世界人工智能大会（WAIC）上宣布重大战略转型：全面聚焦AI推理芯片研发。公司推出全自研全国产的深界DeepEdge10系列芯片，采用创新“算力积木”架构，并同步展示基于DeepEdge 200芯片的深穹X6000加速卡及多款推理一体机，目标是成为国产AI推理芯片的“核心加速器”。

适用人群

AI硬件开发者：需高性价比国产推理芯片的工程师
机器人/智能设备厂商：寻求嵌入式边缘算力解决方案
云计算服务商：布局大模型推理降本增效的运营者
智慧城市建设方：需本地化部署AI算力的政府与企业
国产技术投资人：关注自主可控芯片赛道的资本方

核心功能与技术解析

以下是云天励飞AI推理芯片的核心功能及其技术实现原理：

功能模块	技术实现原理	代表产品
多模态边缘推理	自研NPU Nova 400核心+Transformer专用算子，支持低比特混合量化	DeepEdge10C/10 Max
千亿级大模型推理	D2D Chiplet异构封装 + C2C Mesh互连，突破内存带宽瓶颈	深穹X6000加速卡
动态算力扩展	“算力积木”模块化架构，支持4-16颗芯片级联，算力按需组合	Edge10C集群方案
全场景模型适配	原生适配DeepSeek-R1、通义千问等主流开源模型，集成鸿蒙OS驱动框架	DeepSeek推理一体机
超低功耗部署	3D近存计算技术，内存混合键合降低数据搬运能耗，能效比提升10倍	嵌入式机器人控制模组
国产化安全部署	100%国产工艺链，通过广五所自主可控C级认证，支持RISC-V指令集	政务安全推理盒

灵活算力扩展（算力积木架构）
首创 D2D Chiplet + C2C Mesh 双模互连技术：
- D2D Chiplet：在单芯片内集成多个计算单元，通过硅中介层实现高速互连
- C2C Mesh：多芯片间采用PCIe通用接口（NB-Link技术），实现1TB/s级数据传输
  例如将4颗DeepEdge10C芯片级联，可跑满671B MoE大模型，吞吐量达500 tokens/s，功耗不足70W。
千亿模型边缘部署（近存计算优化）
采用 3D混合键合内存 技术，将DRAM堆叠于计算单元上方：
- 内存带宽提升10倍，访存延迟降低至纳秒级
- 支持FP8/FP4低精度量化，适配Llama2、通义千问等大模型权重压缩
多场景硬件适配（异构计算框架）
自研Nova指令集架构，实现：
- 硬件级Transformer加速：专用Attention算子计算效率提升5倍
- 动态编译引擎：自动优化模型计算图，适配不同芯片拓扑

工具使用技巧

快速部署大模型：
- 使用深穹X6000加速卡+NB-Mesh互连组建推理集群，单卡支持256TOPS，8卡扩展可承载万亿参数模型
- 运行提示：启用动态批处理（Dynamic Batching） 功能，吞吐量提升40%
低成本边缘设备升级：
- DeepEdge10C模组（15x15mm封装）嵌入智能硬件，支持7B-32B模型本地运行
- 示例：扫地机器人通过语音指令解析避障路径，响应延迟<200ms
能效优化策略：
- 在深界芯片管理平台开启TDP自适应模式，根据负载动态调节电压频率
- 实测显示：视频分析场景功耗降低35%