Goedel-Prover-V2:普林斯顿32B数学定理证明模型刷新SOTA

AI快讯13小时前发布 ai-tab
4 0

产品介绍

Goedel-Prover-V2 是由普林斯顿大学主导,联合清华大学、北京大学、斯坦福大学、英伟达、亚马逊、Meta FAIR等顶尖机构共同研发的开源自动定理证明模型。2025年7月刚发布,它就以两个颠覆性突破震动AI与数学界:

  • 🚀 8B轻量模型在MiniF2F数学基准上持平此前671B参数的SOTA模型DeepSeek-Prover-V2;
  • ⚡️ 32B旗舰模型在三大权威测试集(MiniF2F/90.4%、PutnamBench/64题、MathOlympiadBench/73题)全面刷新纪录!

技术内核基于形式化推理框架,依托主流数学证明语言Lean构建机器可验证的数学证明链。其成功核心在于三大创新技术:

▶️ 分层式数据合成 | ▶️ 验证器引导的自我修正 | ▶️ 模型平均权重融合

Goedel-Prover-V2:普林斯顿32B数学定理证明模型刷新SOTA

适用人群

该工具为以下群体提供专业级支持:

  • 👨‍🏫 数学研究者:快速验证复杂猜想,辅助定理形式化
  • 👨‍💻 AI/形式化方法开发者:构建高可靠性验证系统
  • 🎓 STEM教育者:生成可交互的机器可读证明案例
  • 🔐 密码学/量子计算团队:推进算法安全验证(团队已布局该领域)

核心功能与技术解析

以下按优先级排序的核心能力,重新定义了自动推理的效率天花板:

功能技术原理性能表现
形式化证明生成基于Lean 4语言构建机器可验证证明链,融合双形式化器增强语义准确性在Lean Workbook生成29.7K条证明
超参数效率模型平均(Model Averaging)融合多节点权重,提升鲁棒性8B模型性能=671B模型
复杂定理推理分层式数据合成(Scaffolded Synthesis)渐进生成高难度证明任务MathOlympiadBench解决73题
自我修正证明利用Lean编译器反馈循环,实现验证器引导的迭代优化MiniF2F正确率提升至90.4%
多基准泛化在竞赛级(PutnamBench)、奥赛级(MathOlympiadBench)问题集均达SOTAPutnamBench排名第1

💡 技术亮点

  • “小模型大智慧”的奥秘:通过分层式训练,模型从简单定理证明逐步升级到IMO难题,学习效率提升近百倍;
  • 自我修正闭环:每生成一个证明,由Lean编译器实时反馈错误,模型自主修正(如人类反复推演草稿),使MiniF2F正确率从88.1%→90.4%;
  • 零资源浪费:融合未验证数据,利用合成数据增强技术填补训练缺口。

工具使用技巧

1. 环境配置避坑指南

# 关键步骤:需完整构建Lean 4及mathlib4
git clone --recurse-submodules https://github.com/Goedel-LM/Goedel-Prover.git
cd mathlib4 && lake build  # 90%报错因缺少此步

2. 推理加速策略

  • 8B模型:适合教育场景快速生成中学至本科级证明
  • 32B+自我修正模式:研究级问题添加--self_correction True,通过2-3轮迭代提升成功率
  • 多GPU支持:启动时添加--parallel_gpu 4可分割计算图(需≥80GB显存)

3. 数据生成秘籍

from goedel.prover import ScaffoldedSynthesizer
# 生成梯度难度题目(简单→奥赛级)
synthesizer = ScaffoldedSynthesizer(difficulty_steps=10)
synthetic_problems = synthesizer.generate() 

访问地址

正如团队核心普林斯顿教授金驰所言:“Goedel-Prover-V2不仅是技术的胜利,更是对‘参数至上论’的彻底颠覆。” 现在,它已开源,等你来挑战数学的深邃边疆!


© 版权声明

相关文章

暂无评论

none
暂无评论...