OpenCompass

1年前发布 486 00

OpenCompass由上海人工智能实验室于2023年8月正式开源，定位为大模型评测的全链路工具平台。

收录时间：

2025-03-25

OpenCompass

OpenCompass由上海人工智能实验室于2023年8月正式开源，定位为大模型评测的全链路工具平台。它支持主流大语言模型（如Llama3、GPT-4、ChatGLM）及多模态模型的性能评估，提供从客观指标到主观评分的完整评测方案，覆盖知识、推理、语言等七大能力维度。

按优先级列举OpenCompass的6项核心能力：

功能	技术原理
多模型支持	集成HuggingFace等开源仓库接口，兼容API与本地模型，支持动态加载。
跨领域数据集评测	内置100+数据集（如CMMLU、MMBench），采用零样本/少样本提示策略激发模型潜力。
高效分布式评测	任务分割与合并算法优化资源分配，千亿参数模型评测最快3小时完成。
多模态能力评估	自研MMBench数据集，覆盖图像理解、目标检测等20个细粒度维度，循环提问增强鲁棒性。
主观评测与安全审查	结合人类评分与模型辅助评估（如CompassJudger），检测输出偏见与数据泄露风险。
可扩展架构	模块化设计支持自定义数据集、评估指标及评测流程，无缝接入新模型类型。

快速上手：
• 通过pip install opencompass一键安装，支持本地与API模型评测。
• 示例命令：opencompass --models hf_internlm2 --datasets demo_gsm8k，5分钟生成基础报告。
进阶功能：
• 长文本评测：使用NeedleBench测试百万级上下文的语义连贯性。
• 代码解释器集成：通过CIBench评估模型调用Python工具链的能力。
结果可视化：
• 内置CompassRank榜单实时更新模型排名，支持多维雷达图对比性能优劣。

? 立即体验：OpenCompass官网

暂无评论

暂无评论...