AI模型评测

共 14 篇网址

汇聚优质 AI 模型评测工具，覆盖模型性能测试、功能对比、精度评估、效率分析等核心场景，适配大语言模型、图像生成模型、语音识别模型等多种类型。无论是 GPT-4 Evaluator 的多维度能力测评、MMLU 的通用知识基准测试，还是 HumanEval 的代码生成能力评估、C-EVAL 的中文模型性能考核，亦或是模型对比平台的横向功能比对、效率测试工具的资源消耗分析，都能为开发者、研究者及使用者提供客观数据参考，助力精准了解 AI 模型优劣，高效选择适配工具。

AI Ping

清华系AI基础设施创新企业清程极智推出的大模型服务性能评测与信息聚合平台

04290

AI模型评测 # AI模型评测

PubMedQA

MIT授权开源的一款生物医学问答数据集与工具集，专为处理复杂科研文献设计

04910

AI模型评测 # AI模型评测

LLMEval3

大语言模型的全生命周期评测与优化

01890

AI模型评测 # AI模型评测

Chatbot Arena

全球最权威的开源大模型评测平台

07280

AI模型评测 # AI模型评测

HELM

斯坦福大学基础模型研究中心（CRFM）于2022年发布，是首个覆盖语言模型能力、风险与效率的系统性评测框架。

05460

AI模型评测 # AI模型评测

MMBench

OpenCompass团队推出的开源评测基准，旨在解决传统AI模型评估中存在的“能力盲区”问题

05180

AI模型评测 # AI模型评测

CMMLU

CMMLU由上海交通大学、微软亚洲研究院与墨尔本大学联合推出，是一个专注于中文语言和文化背景的大模型评测工具。

02040

AI模型评测 # AI模型评测

OpenCompass

OpenCompass由上海人工智能实验室于2023年8月正式开源，定位为大模型评测的全链路工具平台。

04570

AI模型评测 # AI模型评测

SuperCLUE

SuperCLUE由CLUE中文语言理解测评基准发展而来（2019年发起），是专注于中文通用大模型评估的独立第三方机构。

06160

AI模型评测 # AI模型评测

FlagEval

FlagEval由北京智源人工智能研究院于2023年推出，是首个覆盖"能力-任务-指标"三维评估体系的智能评测平台。

02980

AI模型评测 # AI模型评测

C-Eval

C-EVAL由上海交通大学、清华大学与爱丁堡大学联合研发，是首个专注于中文大语言模型（LLM）的综合性评测套件

02740

AI模型评测 # AI模型评测

Open LLM Leaderboard

Open LLM Leaderboard

Open LLM Leaderboard 由全球最大的AI开源社区Hugging Face于2023年推出，旨在解决大模型性能评估的“信息迷雾”

05280

AI模型评测 # AI模型评测

MMLU

MMLU（大规模多任务语言理解）由斯坦福大学研究团队开发，是评估大型语言模型（如GPT、Claude系列）综合能力的黄金标准。

03910

AI模型评测 # AI模型评测

AGI-Eval

微软研究院于2023年推出，是首个以人类标准化考试（如中国高考、美国SAT、法学院入学考试LSAT等）为基准的大模型评估系统

03450

AI模型评测 # AI模型评测