
OpenCompass
OpenCompass由上海人工智能实验室于2023年8月正式开源,定位为大模型评测的全链路工具平台。
CMMLU由上海交通大学、微软亚洲研究院与墨尔本大学联合推出,是一个专注于中文语言和文化背景的大模型评测工具。其数据集覆盖从小学到专业级别的知识领域,包含11,528道涵盖STEM(科学、技术、工程、数学)、人文社科及中国特色内容(如中国驾驶规则、马克思主义理论)的单选题。通过模拟真实考试场景,CMMLU能客观衡量模型在复杂推理、知识广度和文化适配性上的表现。
功能模块 | 技术原理与实现 |
---|---|
多学科覆盖 | 数据集涵盖67个学科,通过混合LaTeX与纯文本格式呈现公式、化学式等复杂内容,确保题目表达无歧义。 |
中文特定知识测试 | 设计包含“中国饮食文化”“古汉语”等本土化题目,采用动态少样本提示(Few-shot)策略,减少模型对英文数据的依赖。 |
零样本与少样本评估 | 支持零样本(直接答题)和少样本(提供5个示例)两种模式,通过正则表达式自动提取模型答案,适配不同训练阶段的模型。 |
性能深度分析 | 提供学科细分报告(如STEM vs. 人文社科),结合链式思维(Chain-of-Thought)提示词优化模型推理能力。 |
跨模型对比 | 公开评测结果(如GPT-4平均分70.95%、ChatGLM2-6B中文模型最优),支持横向对比开源与闭源模型的优势领域。 |
针对性优化提示词:
• 对于STEM类题目,使用“逐步分析并选出正确答案”的提示词,可提升模型复杂问题的解析能力。
• 在中国特色题目中,优先调用中文预训练数据占比高的模型(如ChatGLM),其历史、政治类得分甚至超过GPT-4。
动态调整示例数量:
• 若模型在零样本模式下表现波动,可添加3-5个示例稳定输出,但需注意文本长度限制(示例过多可能触发截断)。
关注长尾学科:
• 模型在“古汉语”“精算学”等冷门学科表现较弱,需针对性增加训练数据或采用检索增强(RAG)技术补充知识库。
👉 立即体验: CMMLU官方GitHub仓库