Goedel-Prover-V2：普林斯顿32B数学定理证明模型刷新SOTA

96 0

产品介绍

Goedel-Prover-V2 是由普林斯顿大学主导，联合清华大学、北京大学、斯坦福大学、英伟达、亚马逊、Meta FAIR等顶尖机构共同研发的开源自动定理证明模型。2025年7月刚发布，它就以两个颠覆性突破震动AI与数学界：

? 8B轻量模型在MiniF2F数学基准上持平此前671B参数的SOTA模型DeepSeek-Prover-V2；
⚡️ 32B旗舰模型在三大权威测试集（MiniF2F/90.4%、PutnamBench/64题、MathOlympiadBench/73题）全面刷新纪录！

技术内核基于形式化推理框架，依托主流数学证明语言Lean构建机器可验证的数学证明链。其成功核心在于三大创新技术：

▶️ 分层式数据合成 | ▶️ 验证器引导的自我修正 | ▶️ 模型平均权重融合

适用人群

该工具为以下群体提供专业级支持：

?‍? 数学研究者：快速验证复杂猜想，辅助定理形式化
?‍? AI/形式化方法开发者：构建高可靠性验证系统
? STEM教育者：生成可交互的机器可读证明案例
? 密码学/量子计算团队：推进算法安全验证（团队已布局该领域）

核心功能与技术解析

以下按优先级排序的核心能力，重新定义了自动推理的效率天花板：

功能	技术原理	性能表现
形式化证明生成	基于Lean 4语言构建机器可验证证明链，融合双形式化器增强语义准确性	在Lean Workbook生成29.7K条证明
超参数效率	模型平均（Model Averaging）融合多节点权重，提升鲁棒性	8B模型性能=671B模型
复杂定理推理	分层式数据合成（Scaffolded Synthesis）渐进生成高难度证明任务	MathOlympiadBench解决73题
自我修正证明	利用Lean编译器反馈循环，实现验证器引导的迭代优化	MiniF2F正确率提升至90.4%
多基准泛化	在竞赛级（PutnamBench）、奥赛级（MathOlympiadBench）问题集均达SOTA	PutnamBench排名第1

? 技术亮点：
“小模型大智慧”的奥秘：通过分层式训练，模型从简单定理证明逐步升级到IMO难题，学习效率提升近百倍；
自我修正闭环：每生成一个证明，由Lean编译器实时反馈错误，模型自主修正（如人类反复推演草稿），使MiniF2F正确率从88.1%→90.4%；
零资源浪费：融合未验证数据，利用合成数据增强技术填补训练缺口。

工具使用技巧

1. 环境配置避坑指南

# 关键步骤：需完整构建Lean 4及mathlib4
git clone --recurse-submodules https://github.com/Goedel-LM/Goedel-Prover.git
cd mathlib4 && lake build  # 90%报错因缺少此步

2. 推理加速策略

8B模型：适合教育场景快速生成中学至本科级证明
32B+自我修正模式：研究级问题添加--self_correction True，通过2-3轮迭代提升成功率
多GPU支持：启动时添加--parallel_gpu 4可分割计算图（需≥80GB显存）

3. 数据生成秘籍

from goedel.prover import ScaffoldedSynthesizer
# 生成梯度难度题目（简单→奥赛级）
synthesizer = ScaffoldedSynthesizer(difficulty_steps=10)
synthetic_problems = synthesizer.generate()