蚂蚁集团开源万亿参数模型 Ling-1T

AI快讯4小时前发布 ai-tab
0 0

在AI模型规模与效率的激烈竞赛中,蚂蚁集团以其百灵大模型家族的最新成员——Ling-1T,为整个行业带来了全新的可能性。

10月9日,蚂蚁集团正式开源了其百灵大模型Ling 2.0系列的首款旗舰模型——Ling-1T,一个拥有万亿参数的通用语言模型。

这不仅是蚂蚁集团迄今规模最大、能力最强的"非思考"大模型,也是目前已知规模最大的使用FP8训练的基座模型。

在多项复杂推理基准测试中,Ling-1T取得了突破性表现,甚至在部分测试中超越了Gemini-2.5-Pro和DeepSeek-V3.1-Terminus等国际顶尖模型。


1. 模型亮点:蚂蚁Ling-1T的突破性特征

在AI大模型激烈竞争的红海中,Ling-1T凭借 several 核心亮点脱颖而出,奠定了其在开源大模型领域的领先地位。

万亿规模与高效激活的平衡术

Ling-1T采用混合专家模型(MoE)架构,总参数量高达1万亿,但每个token仅激活约50-51亿参数

这种设计使模型在保持庞大知识容量的同时,大幅降低了推理阶段的计算成本,解决了大模型时代困扰业界的能耗与效率难题。

多项基准测试的卓越表现

在权威评测中,Ling-1T展现了令人瞩目的能力:

  • 在竞赛数学榜单AIME 25中,以70.42%的准确率优于Gemini-2.5-Pro的70.10%,且平均推理长度缩短约40%
  • 在代码生成、软件开发、专业数学和逻辑推理等22项高难度基准测试中取得领先
  • 在AI代码生成评测标准ArtifactsBench上,在开源模型中排名第一

开源开放与技术普惠

蚂蚁集团将这一顶尖模型全面开源,遵循了其推动AI技术普惠的一致理念。开发者现可通过Hugging Face和ModelScope等平台直接访问和使用这一万亿参数模型。

2. 技术架构:解密Ling-1T的工程创新

Ling-1T的背后是一系列精妙的工程设计和技术创新,这些要素共同造就了其卓越的性能与效率。

混合专家架构的精细化实现

Ling-1T的MoE架构包含256个专家,每次推理仅激活其中的8个,即约1/32的专家比例。这种稀疏激活机制是高效推理的关键

值得注意的是,模型的前几层采用了密集结构(Dense),后面才切换至MoE。这种"前密后疏"的设计缓解了浅层网络的负载不均衡问题,提升了整体架构的稳定性。

训练流程的精心设计

Ling-1T的训练过程分为多个阶段,每个阶段都有明确目标:

预训练阶段

  • 第一阶段:使用10T token的高知识密度语料打底
  • 第二阶段:再使用10T token的高推理密度语料,推理相关语料占比超40%

中训练阶段:扩展上下文至128K,并加入思维链语料,实现模型推理能力的"预激活"

后训练阶段:采用进化思维链(Evo-CoT)方法,在可控成本下实现渐进式推理增强

训练精度与调度创新

Ling-1T全程采用FP8混合精度训练,这是目前最大规模的FP8训练实践。相比传统的BF16精度,FP8带来了15%以上的端到端加速和显著的显存节省,同时在1万亿token训练中保持与BF16精度损失偏差≤0.1%。

在调度策略上,蚂蚁团队采用了自研的WSM学习率调度器替代传统的Warmup-Stable-Decay策略,在多个任务上获得了比传统策略更好的结果。

强化学习的创新方法

在强化学习阶段,团队提出了LPO方法,即以"句子"为粒度的策略优化算法。这一创新既避免了词元级别的破碎感,也克服了序列级别的笼统性,使奖励信号与模型行为在语义层面实现更精准的对齐。

3. 性能表现:Ling-1T的能力全景图

Ling-1T在多项关键测试中展现了顶尖水平,以下是其核心能力的具体表现。

数学推理能力

在数学推理领域,Ling-1T的表现尤其出色。以AIME 25为例,该测试是美国高中数学竞赛级别的数学推理基准。

Ling-1T不仅准确率超过Gemini-2.5-Pro,更重要的是以更少的token消耗实现了这一结果,展现出在推理精度与效率方面的卓越平衡。

Ling-1T在AIME 25的表现对比

模型准确率平均推理长度
Ling-1T70.42%~4300 tokens
Gemini-2.5-Pro70.10%~7000 tokens
GPT-5 (非思考模式)61.9%未公开

代码生成与前端开发

Ling-1T在编程能力方面同样表现卓越:

  • 在MultiPL-E、LiveCedeBenchi2408-25051、CadeForces-raling以及FullStack Bench等编程能力基准测试中,超越多个顶尖模型
  • 结合"语法-功能-美学"混合奖励机制,生成的代码不仅功能完整,还展现出精致的视觉美感
  • 能够将抽象逻辑转化为功能化视觉组件,生成跨平台兼容的前端代码

工具调用与实用能力

尽管训练期间未接触大规模轨迹数据,Ling-1T在BFCL V3工具使用基准测试中,仅通过轻度指令微调即实现约70%的工具调用准确率,显示出强大的实用性和适应性。

4. 应用场景:从代码生成到复杂任务处理

Ling-1T的能力不仅体现在基准测试中,更在实际应用场景中展现出巨大价值。

自动化开发与编程助手

Ling-1T能够理解复杂自然语言指令,并将其转化为功能性代码。例如,它可以:

  • 开发一个展示《三体》主要人物关系及阵营的图谱页面,并满足详细的视觉效果要求
  • 根据要求开发Crane云平台网页,完整实现用户登录、数据仪表盘、客户管理等功能
  • 创建"在线塔罗牌运势预测"页面,完整实现首页、占卜流程、运势报告等产品功能

复杂交互应用开发

模型能够处理包含多重要求的复杂任务,如:

  • 编写HTML脚本展示小球在旋转的六边形内弹跳碰撞,同时满足大小调整、物理规律等要求
  • 对六种常见优化问题(线性规划、旅行商问题等)进行求解并同时用pygame生成教学演示动画
  • 根据给定信息和要求进行上海一日游行程规划,并开发页面利用mapbox地图引擎展示整个行程

企业级应用潜力

Ling-1T在自动化开发、智能编程助手等场景具有显著落地潜能。其强大的代码生成能力和工具调用准确率使其成为企业级应用的理想选择,能够大幅降低开发门槛,提升生产效率。

5. 生态定位:蚂蚁的AI战略与模型家族

Ling-1T的发布不仅是技术突破,更是蚂蚁集团整体AI战略的重要一环。

百灵模型家族体系

蚂蚁百灵大模型家族拥有清晰的命名规则和分工:

  • Ling系列:基础大语言模型,L取自Linguistics
  • Ring系列:推理模型,类似GPT的O系列,R取自Reasoning
  • Ming系列:多模态模型,M取自Multi-modality,下分视频、音频等子系列

模型规模全覆盖

除了Ling-1T这样的万亿参数模型,蚂蚁还提供覆盖不同规模需求的模型版本:

  • 从10B到1T的不同尺寸模型,服务不同场景需求
  • 如16B的高性能推理模型Ring-mini-2.0,激活1.4B参数即可达到10B级别以下dense模型的综合推理能力
  • Ming-lite-omni作为全模态大模型,在2.8B激活参数下多模态能力比肩GPT-4o

蚂蚁的AI战略布局

蚂蚁很早就提出了三大战略——AI First、支付宝双飞轮、加速全球化。CEO韩歆毅曾明确表示,尽管聚焦AI应用,但"一定要做基础大模型",因为"追求智能上限,会让这个人更加聪明,能够做更多、更好的服务"。

在这一战略指导下,蚂蚁几乎所有的发布模型都是真正开源的,没有任何等待期,体现了其对开源社区的坚定承诺。

6. 行业意义:Ling-1T对AI发展的影响

Ling-1T的发布不仅是一个模型的问世,更是对AI行业发展方向的一次重要启示。

Scaling Law的持续验证

在众多团队认为Scaling Law遇到瓶颈时,蚂蚁团队持有一种"非共识",即Scaling这件事情还没有终结。Ling-1T的成功正是基于蚂蚁提出的Ling Scaling Law,这一专有技术可以自动计算最优参数配置,支持精准外推预测。

效率与性能的平衡艺术

Ling-1T展示了如何在保持顶尖性能的同时,大幅提升计算效率。其FP8训练MoE架构的创新实践,为行业提供了可借鉴的范例,特别是在降低能耗与计算成本方面。

开源生态的强力助推

作为首个万亿参数级别的旗舰非思考模型,Ling-1T的开源为整个AI社区提供了宝贵资源。开发者现在可以基于这一顶尖模型进行创新和优化,加速AI技术在各行各业的应用落地。

7. 实践指南:如何开始使用Ling-1T

对于希望体验和应用Ling-1T的开发者,以下是详细的获取和使用指南。

模型获取渠道

开发者可通过以下平台获取Ling-1T模型:

在线体验与API服务

对于想先体验再部署的用户,蚂蚁提供了多种体验方式:

技术集成要点

在集成Ling-1T时,开发者需注意:

  • 模型支持最高128K上下文窗口,适合长文本处理任务
  • 作为"非思考模型",它在有限输出token条件下表现优异,适合需要快速响应的应用场景
  • 模型在代码生成和前端开发方面具有特殊优势,可优先考虑在这些场景中应用

常见问题解答

Ling-1T与思考模型(如DeepSeek-R1)有何区别?

Ling-1T是”非思考模型”,意味着它能在有限输出token条件下直接给出高质量的推理结果,而不像思考模型那样生成冗长的内部推理链。这使得Ling-1T在保证准确率的同时,大幅提升了响应效率。

个人开发者能否在本地运行Ling-1T?

虽然Ling-1T是万亿参数模型,但由于其MoE架构,每个token仅激活约51亿参数,这使得在适当硬件条件下运行模型成为可能。不过,要充分发挥其128K上下文能力,仍需考虑显存和计算资源的充足性。

Ling-1T在哪些领域表现最为出色?

根据评测,Ling-1T在数学推理、代码生成、前端开发等领域表现最为出色,在多项基准测试中超越了当前顶尖的开源和闭源模型,特别是在有限输出token条件下的推理任务中。

蚂蚁是否会发布Ling-1T的思考模型版本?

是的,蚂蚁已经在训练万亿参数级的深度思考大模型Ring-1T,并已于9月30日开源了preview版。这意味着不久后开发者将能体验到具有更强推理能力的万亿参数模型。


Ling-1T代表了当前大模型发展的一个新方向——不再单纯追求参数规模的增长,而是在规模、效率和质量之间寻找最佳平衡点。

正如蚂蚁CEO韩歆毅所言:"因为如果基于AI做服务和应用,就像训练一个人去做事。追求智能上限,会让这个人更加聪明,能够做更多、更好的服务"。


© 版权声明
trae-字节旗下AI代码助手

相关文章

暂无评论

头像
none
暂无评论...