华为开源7B参数openPangu-Embedded-7B-v1.1

77 0

1. 简介

近日，华为正式在开源社区GitCode上发布了其最新的开源大语言模型——openPangu-Embedded-7B-v1.1。该模型以其70亿（7B）参数的规模和一项突破性的可自由切换思维模式（Thinking Mode）功能，迅速吸引了全球开发者与人工智能研究者的目光，为嵌入式应用和边缘计算场景下的AI能力带来了新的可能。

openPangu-Embedded-7B-V1.1 是基于昇腾 NPU 从零训练的高效大语言模型，参数量为 7B（不含词表Embedding）。openPangu-Embedded-7B-V1.1 训练了约 25T tokens，具备快慢思考融合与自适应切换能力。

2. 模型架构表格

	openPangu-Embedded-7B-V1.1
Architecture	Dense
Parameters (Non-Embedding)	7B
Number of Layers	34
Hidden Dimension	12800
Attention Mechanism	GQA
Number of Attention Heads	32 for Q，8 for KV
Vocabulary Size	153k
Context Length (Natively)	32k
Pretraining Tokens	25T

3. 测评结果

测评集	测评指标	慢思考v1.0	慢思考v1.1	自适应v1.1
通用能力
MMLU-Pro	Exact Match	76.32	75.54	72.81
CMMLU	Acc	75.59	72.94	72.18
ArenaHard_v0.1	w/o style control	85.80	88.00	84.60
C-Eval	Acc	83.05	84.92	83.33
GPQA-Diamond	Avg@4	70.54	73.23	73.74
数学能力
MATH-500	Avg@1	95.00	97.00	96.00
AIME24	Avg@16	71.57	79.38	79.02
AIME25	Avg@16	58.24	70.00	70.21
代码能力
LiveCodeBench	Avg@2 (08/24~01/25)	54.04	58.27	58.27
MBPP+	Avg@2	76.06	76.46	75.66

注：评测过程中system prompt 为空，且不添加任何额外的思维链（CoT）提示。评测采用 128k 的序列长度进行。

除精度外，我们还在部分数据集上统计了模型的输出长度，通过数据质量驱动的学习策略，自适应快慢思考可以在基本不影响精度地前提下，有效地在简单任务上自动切换部分输出为快思考，大幅缩短平均输出思维链长度（Length）；在难任务通过保持慢思考能力，精度持平纯慢思考模型。

测评集	测评指标	慢思考v1.1	自适应v1.1
通用能力
CMMLU	Acc	72.94	72.18
	Length	2574	1338
C-Eval	Acc	84.92	83.33
	Length	2484	1723
数学能力
AIME24	Avg@16	79.38	79.02
	Length	48229	49656
代码能力
LiveCodeBench	Avg@2 (08/24~01/25)	58.27	58.27
	Length	58140	59307

该模型在多项中英文权威基准评测（如 C-Eval, MMLU, AGIEval 等）中均取得了同等参数量模型中的领先成绩，尤其在知识问答、文本摘要、代码生成等任务上表现优异。其名称中的“Embedded”预示着它对嵌入式设备部署的优化，但也同样适用于服务器端的各种应用。

其主要特点包括：

强大的基础能力：在通用知识和推理任务上表现稳健。
出色的代码能力：能够理解和生成多种编程语言的代码，是开发者的得力助手。
优化的上下文长度：支持更长的文本输入，便于处理长文档和理解复杂语境。
完全开源：模型权重完全开放，允许任何开发者自由使用、研究和商业化，遵循宽松的开源协议。

4. 部署和使用

4.1 环境准备

硬件规格

Atlas 800T A2 (64GB)，驱动与固件安装包获取请参照 [Atlas 800T A2]。

软件环境

操作系统：Linux（推荐 openEuler>=24.03）
CANN==8.1.RC1，安装准备及流程请参照 [CANN Install]
python==3.10
torch==2.1.0
torch-npu==2.1.0.post12
transformers==4.53.2

以上软件配套经过验证，理论可以支持更高版本，如有疑问，可以提交 issue。

4.2 权重完整性校验

请参考以下方法对下载内容进行完整性校验，hash 值存储在 checklist.chk 文件中。

#!/usr/bin/env bash
ARCH=$(uname -m)
MODEL_PATH="${TARGET_FOLDER}/${MODEL_FOLDER_PATH}"
cd "$MODEL_PATH" || exit 1
if [ "$ARCH" = "arm64" ]; then
    sha256sum checklist.chk
else
    sha256sum -c checklist.chk
fi

4.3 推理样例

下述内容提供 openPangu-Embedded-7B-V1.1 在 transformers 框架上进行推理的一个简单示例：

运行前请修改 generate.py，添加模型路径。

cd inference
python generate.py

openPangu-Embedded-7B-V1.1 模型默认为慢思考模式，可以通过以下手段切换至快慢自适应切换/快思考模式：

在代码实例generate.py中，auto_thinking_prompt与no_thinking_prompt变量的定义展示了切换至快慢自适应或快思考模式的具体实现：通过在用户输入末尾添加/auto_think或/no_think标记，可将当前轮次切换至快慢自适应切换/快思考模式。

4.4 使用推理框架

vllm_ascend：参考[vllm_ascend_for_openpangu_embedded_7b.zh]

5. 模型许可证

除文件中对开源许可证另有约定外，openPangu-Embedded-7B-V1.1 模型根据 OPENPANGU MODEL LICENSE AGREEMENT VERSION 1.0 授权，旨在允许使用并促进人工智能技术的进一步发展。有关详细信息，请参阅模型存储库根目录中的 LICENSE文件。

文章版权归作者所有，未经允许请勿转载。

Meta Llama 4-Plus破局｜MoE架构革新+10M上下文，开源大模型效率革命【深度拆解】

华为开源7B参数openPangu-Embedded-7B-v1.1

1. 简介

2. 模型架构表格

3. 测评结果

4. 部署和使用

4.1 环境准备

硬件规格

软件环境

4.2 权重完整性校验

4.3 推理样例

4.4 使用推理框架

5. 模型许可证

Qwen3-ASR-Flash - 阿里通义录音文件识别模型

谷歌AI科研编程系统 - 自动生成专家级科学软件

相关文章

Meta Llama 4-Plus破局｜MoE架构革新+10M上下文，开源大模型效率革命【深度拆解】

多模态Agent革命｜拆解Gemini 2.0的MoE架构与Flash引擎如何重塑生产力

分钟级视频创作革命：Video Ocean接入GPT-5实现一句话生成爆款内容

性能差距0.3%背后｜中美大模型竞速赛的算法突围与算力平权

暂无评论

热门文章