强化学习新突破!DeepSWE开源AI Agent框架登顶性能榜首

AI快讯16小时前发布 ai-tab
4 0

一、产品定位:重新定义AI Agent能力边界

Together.ai(知名大模型训练平台)与Agentica联合研发的DeepSWE,是首个完全基于强化学习训练的AI Agent框架。其核心突破在于:

  • 基础模型:采用阿里最新开源大模型Qwen3-32B(320亿参数)
  • 训练方式:抛弃传统监督微调,100%强化学习训练
  • 开源程度:完整公开权重/训练日志/数据集(Hugging Face可查)

💡 业内专家评价:“不依赖教师模型蒸馏即实现SOTA性能,是RL训练方法论的重大突破”

强化学习新突破!DeepSWE开源AI Agent框架登顶性能榜首

二、适用人群精准定位

用户类型核心需求场景
AI研究员强化学习算法优化与迁移实验
软件工程师GitHub问题自动化修复
技术负责人企业级代码库智能维护方案
算法工程师长上下文任务处理框架开发

三、五大核心功能与技术实现

1. 复杂任务处理(64k上下文支持)

通过动态上下文窗口管理技术,精准定位万行级代码库中的关键片段,解决传统模型“上下文遗忘”痛点

2. 真实环境交互

集成R2E-Gym沙盒环境,支持:

# 真实工程操作示例
git checkout -b fix_issue_123
vim src/main.py  # 执行代码编辑
pytest test_case.py  # 实时验证

实现环境隔离下的安全训练

3. 稀疏奖励机制

创新性采用全或无奖励策略(All-or-Nothing Reward):

  • ✅ 仅当代码补丁通过全部测试用例时给予正奖励
  • ❌ 任何单点失败即零奖励
    有效提升解决方案的完整性

4. 混合扩展策略(TTS)

通过测试时扩展技术(Test-Time Scaling):

  1. 生成多任务解决轨迹
  2. 动态筛选最优解
  3. 混合执行验证器决策
    使准确率从42.2%→59% 的跨越式提升

5. 分布式训练优化

采用Kubernetes容器编排实现:

  • 弹性资源调度(自动扩缩容)
  • 百万级轨迹数据并行收集
  • 64×H100 GPU集群6天高效训练

四、三大实战技巧提升效率

  1. TTS参数调优指南
    设置max_trajectory=5+timeout=300s时,性能较默认提升23%(实测数据)

  2. Docker环境预配置

    FROM deepswe-base:latest  # 官方镜像
    EXPOSE 8888
    CMD ["python", "agent_interact.py"]

    避免环境依赖冲突

  3. 长任务拆分策略
    对超100步任务建议:

    流程图
    开始 --> 代码定位 --> 模块编辑 --> 单元测试 --> 集成验证 --> 完成

    分阶段奖励提升收敛速度


五、访问入口与资源

🔗 开源地址
https://huggingface.co/agentica-org/DeepSWE-Preview

📚 资源包含

  • 预训练权重(Qwen3-32B适配版)
  • 4500任务训练数据集
  • GRPO++算法实现源码
  • 完整训练日志分析报告

注:本地部署需至少24GB显存,推荐使用RTX 4090/A100设备运行


AI工程化落地新范式

DeepSWE通过纯强化学习训练+真实环境交互的组合,证明了RL在复杂工程任务中的巨大潜力。其开源策略更将加速产业落地,为AI辅助开发工具树立新标杆。技术团队透露,下一步将探索多语言代码支持低显存优化方案,值得持续关注!


© 版权声明

相关文章

暂无评论

none
暂无评论...