
SuperCLUE
SuperCLUE由CLUE中文语言理解测评基准发展而来(2019年发起),是专注于中文通用大模型评估的独立第三方机构。
OpenCompass由上海人工智能实验室于2023年8月正式开源,定位为大模型评测的全链路工具平台。它支持主流大语言模型(如Llama3、GPT-4、ChatGLM)及多模态模型的性能评估,提供从客观指标到主观评分的完整评测方案,覆盖知识、推理、语言等七大能力维度。
按优先级列举OpenCompass的6项核心能力:
功能 | 技术原理 |
---|---|
多模型支持 | 集成HuggingFace等开源仓库接口,兼容API与本地模型,支持动态加载。 |
跨领域数据集评测 | 内置100+数据集(如CMMLU、MMBench),采用零样本/少样本提示策略激发模型潜力。 |
高效分布式评测 | 任务分割与合并算法优化资源分配,千亿参数模型评测最快3小时完成。 |
多模态能力评估 | 自研MMBench数据集,覆盖图像理解、目标检测等20个细粒度维度,循环提问增强鲁棒性。 |
主观评测与安全审查 | 结合人类评分与模型辅助评估(如CompassJudger),检测输出偏见与数据泄露风险。 |
可扩展架构 | 模块化设计支持自定义数据集、评估指标及评测流程,无缝接入新模型类型。 |
快速上手:
• 通过pip install opencompass
一键安装,支持本地与API模型评测。
• 示例命令:opencompass --models hf_internlm2 --datasets demo_gsm8k
,5分钟生成基础报告。
进阶功能:
• 长文本评测:使用NeedleBench测试百万级上下文的语义连贯性。
• 代码解释器集成:通过CIBench评估模型调用Python工具链的能力。
结果可视化:
• 内置CompassRank榜单实时更新模型排名,支持多维雷达图对比性能优劣。
👉 立即体验:OpenCompass官网