CMMLU

1周前发布 3 00

CMMLU由上海交通大学、微软亚洲研究院与墨尔本大学联合推出,是一个专注于中文语言和文化背景的大模型评测工具。

收录时间:
2025-03-25
CMMLUCMMLU
CMMLU

产品介绍

CMMLU由上海交通大学、微软亚洲研究院与墨尔本大学联合推出,是一个专注于中文语言和文化背景的大模型评测工具。其数据集覆盖从小学到专业级别的知识领域,包含11,528道涵盖STEM(科学、技术、工程、数学)、人文社科及中国特色内容(如中国驾驶规则、马克思主义理论)的单选题。通过模拟真实考试场景,CMMLU能客观衡量模型在复杂推理、知识广度和文化适配性上的表现。


适用人群

  1. AI研究人员:需验证模型在中文多任务场景下的综合能力。
  2. 企业技术团队:优化金融、教育、医疗等领域垂类模型的精准度。
  3. 高校实验室:用于学术研究中模型性能的横向对比。
  4. 开发者社区:开源项目需通过权威基准证明技术实力。

核心功能与技术实现

功能模块技术原理与实现
多学科覆盖数据集涵盖67个学科,通过混合LaTeX与纯文本格式呈现公式、化学式等复杂内容,确保题目表达无歧义。
中文特定知识测试设计包含“中国饮食文化”“古汉语”等本土化题目,采用动态少样本提示(Few-shot)策略,减少模型对英文数据的依赖。
零样本与少样本评估支持零样本(直接答题)和少样本(提供5个示例)两种模式,通过正则表达式自动提取模型答案,适配不同训练阶段的模型。
性能深度分析提供学科细分报告(如STEM vs. 人文社科),结合链式思维(Chain-of-Thought)提示词优化模型推理能力。
跨模型对比公开评测结果(如GPT-4平均分70.95%、ChatGLM2-6B中文模型最优),支持横向对比开源与闭源模型的优势领域。

工具使用技巧

  1. 针对性优化提示词
    • 对于STEM类题目,使用“逐步分析并选出正确答案”的提示词,可提升模型复杂问题的解析能力。
    • 在中国特色题目中,优先调用中文预训练数据占比高的模型(如ChatGLM),其历史、政治类得分甚至超过GPT-4。

  2. 动态调整示例数量
    • 若模型在零样本模式下表现波动,可添加3-5个示例稳定输出,但需注意文本长度限制(示例过多可能触发截断)。

  3. 关注长尾学科
    • 模型在“古汉语”“精算学”等冷门学科表现较弱,需针对性增加训练数据或采用检索增强(RAG)技术补充知识库。


访问地址

👉 立即体验CMMLU官方GitHub仓库


相关导航

暂无评论

none
暂无评论...