CMMLU

5个月前发布 45 00

CMMLU由上海交通大学、微软亚洲研究院与墨尔本大学联合推出，是一个专注于中文语言和文化背景的大模型评测工具。

收录时间：

2025-03-25

打开网站

AI模型评测 # AI模型评测

CMMLU

产品介绍

CMMLU由上海交通大学、微软亚洲研究院与墨尔本大学联合推出，是一个专注于中文语言和文化背景的大模型评测工具。其数据集覆盖从小学到专业级别的知识领域，包含11,528道涵盖STEM（科学、技术、工程、数学）、人文社科及中国特色内容（如中国驾驶规则、马克思主义理论）的单选题。通过模拟真实考试场景，CMMLU能客观衡量模型在复杂推理、知识广度和文化适配性上的表现。

适用人群

AI研究人员：需验证模型在中文多任务场景下的综合能力。
企业技术团队：优化金融、教育、医疗等领域垂类模型的精准度。
高校实验室：用于学术研究中模型性能的横向对比。
开发者社区：开源项目需通过权威基准证明技术实力。

核心功能与技术实现

功能模块	技术原理与实现
多学科覆盖	数据集涵盖67个学科，通过混合LaTeX与纯文本格式呈现公式、化学式等复杂内容，确保题目表达无歧义。
中文特定知识测试	设计包含“中国饮食文化”“古汉语”等本土化题目，采用动态少样本提示（Few-shot）策略，减少模型对英文数据的依赖。
零样本与少样本评估	支持零样本（直接答题）和少样本（提供5个示例）两种模式，通过正则表达式自动提取模型答案，适配不同训练阶段的模型。
性能深度分析	提供学科细分报告（如STEM vs. 人文社科），结合链式思维（Chain-of-Thought）提示词优化模型推理能力。
跨模型对比	公开评测结果（如GPT-4平均分70.95%、ChatGLM2-6B中文模型最优），支持横向对比开源与闭源模型的优势领域。

工具使用技巧

针对性优化提示词：
• 对于STEM类题目，使用“逐步分析并选出正确答案”的提示词，可提升模型复杂问题的解析能力。
• 在中国特色题目中，优先调用中文预训练数据占比高的模型（如ChatGLM），其历史、政治类得分甚至超过GPT-4。
动态调整示例数量：
• 若模型在零样本模式下表现波动，可添加3-5个示例稳定输出，但需注意文本长度限制（示例过多可能触发截断）。
关注长尾学科：
• 模型在“古汉语”“精算学”等冷门学科表现较弱，需针对性增加训练数据或采用检索增强（RAG）技术补充知识库。

访问地址

👉 立即体验： CMMLU官方GitHub仓库

暂无评论

暂无评论...

CMMLU

产品介绍

适用人群

核心功能与技术实现

工具使用技巧

访问地址

相关导航

PubMedQA

OpenCompass

LLMEval3

MMLU

C-Eval

HELM

Chatbot Arena

SuperCLUE

暂无评论

热门工具

热门文章