昆仑万维Skywork Deep Research Agent v2发布：多模态智能体重塑AI办公未来

98 0

一、产品介绍：AI办公的智能引擎革新

昆仑万维科技股份有限公司在2025年8月11日启动的「SkyWork AI技术发布周」进入第四天时，重磅推出Skywork Deep Research Agent v2。作为天工超级智能体（Skywork Super Agents）的核心驱动引擎，该产品自5月22日初代版本上线后，已为全球用户生成超百万份信息密度极高的文档、PPT及数据报表。本次升级聚焦多模态信息整合能力，首次实现图文信息的同步抓取、理解与重构，彻底改变传统文本检索的局限。

二、适用人群

? 市场研究人员：自动生成含数据图表的行业分析报告
? 金融分析师：实时抓取财报曲线与社媒舆情可视化
?? 学术工作者：整合论文配图与实验数据的文献综述
? 内容创作者：一键生成图文并茂的跨平台趋势分析
? 开发者：通过API构建多模态信息处理工作流

三、核心功能与技术实现

功能模块	技术原理	应用价值
多模态深度调研	MM-Crawler视觉噪声剪枝技术+长距离信息收集	同步抓取网页图文，避免传统文本检索丢失50%关键信息
跨平台浏览器智能体	DOM+视觉推理方案+并行搜索架构	兼容Twitter/Ins等社媒平台，实现评论情绪可视化分析
异步并行理解架构	Multi-Agent异步协作+跨模态结果生成	研究报告自动插入高质量配图，降低读者理解成本
动态任务规划引擎	多动作规划机制(Multi-Action)+智能筛	香港旅游攻略等复杂指令秒级生成交互式网页
自演进学习系统	MCP工具闭环管理（生成-验证-持久化）	支持在线扩展工具库，适应新兴平台数据格式

四、核心技术原理详解

1. 多模态信息处理闭环

通过四阶技术突破重构检索逻辑：

MM-Crawler：模拟人类视觉焦点移动路径，优先抓取信息密度高的图文区域
跨模态对齐：建立文字描述与图片元素的映射关系（如财报文本→数据曲线）
异步并行处理：分离文字解析与图像识别任务，通过Multi-Agent协同提速3倍
视觉友好呈现：自动选择信息传达效率最高的图文组合方式

2. 浏览器智能体革新

传统AI浏览器常因兼容性差/响应延迟导致任务中断。为此，v2版本创新实现：

graph LR
A[DOM结构解析] --> B[视觉元素聚类]
B --> C[平台专项适配器]
C --> D[并行搜索通道]
D --> E[人机接管接口]

该架构在测试中实现27.8%常规正确率，开启并行思考模式后飙升至38.7%（BrowseComp评测），超越GLM-4.5、Claude-4等主流模型。

3. 智能体协同演进机制

引入MCP Manager Agent架构实现工具动态扩展：

? 生成阶段：自动编写新平台数据抓取脚本
✅ 验证阶段：非对称验证原则确保代码可靠性
? 持久化阶段：通过GRPO算法优化工具存储结构
? 复用阶段：建立工具相似度索引库加速调用

五、工具使用技巧

? 效率倍增心法

精准触发并行思考
在复杂指令后添加[深度模式]参数（例：“分析三座水坝生态影响[深度模式]”），正确率随思考时间可提升40%，尤其适合学术研究场景。
跨平台数据对比
使用@平台名定位信源：
“对比Grok4与GPT5用户评价@Twitter@知乎 → 自动生成带情绪热力图的双平台分析
可视化结果导出
输出指令后追加#showcase：
“香港迪士尼客流趋势#showcase” → 直接生成含动态图表的HTML网页