一、产品介绍:AI办公的智能引擎革新
昆仑万维科技股份有限公司在2025年8月11日启动的「SkyWork AI技术发布周」进入第四天时,重磅推出Skywork Deep Research Agent v2。作为天工超级智能体(Skywork Super Agents)的核心驱动引擎,该产品自5月22日初代版本上线后,已为全球用户生成超百万份信息密度极高的文档、PPT及数据报表。本次升级聚焦多模态信息整合能力,首次实现图文信息的同步抓取、理解与重构,彻底改变传统文本检索的局限。

二、适用人群
- 🔬 市场研究人员:自动生成含数据图表的行业分析报告
- 📊 金融分析师:实时抓取财报曲线与社媒舆情可视化
- 👨🏫 学术工作者:整合论文配图与实验数据的文献综述
- 📱 内容创作者:一键生成图文并茂的跨平台趋势分析
- 🤖 开发者:通过API构建多模态信息处理工作流
三、核心功能与技术实现
功能模块 | 技术原理 | 应用价值 |
---|---|---|
多模态深度调研 | MM-Crawler视觉噪声剪枝技术+长距离信息收集 | 同步抓取网页图文,避免传统文本检索丢失50%关键信息 |
跨平台浏览器智能体 | DOM+视觉推理方案+并行搜索架构 | 兼容Twitter/Ins等社媒平台,实现评论情绪可视化分析 |
异步并行理解架构 | Multi-Agent异步协作+跨模态结果生成 | 研究报告自动插入高质量配图,降低读者理解成本 |
动态任务规划引擎 | 多动作规划机制(Multi-Action)+智能筛 | 香港旅游攻略等复杂指令秒级生成交互式网页 |
自演进学习系统 | MCP工具闭环管理(生成-验证-持久化) | 支持在线扩展工具库,适应新兴平台数据格式 |
四、核心技术原理详解
1. 多模态信息处理闭环
通过四阶技术突破重构检索逻辑:
- MM-Crawler:模拟人类视觉焦点移动路径,优先抓取信息密度高的图文区域
- 跨模态对齐:建立文字描述与图片元素的映射关系(如财报文本→数据曲线)
- 异步并行处理:分离文字解析与图像识别任务,通过Multi-Agent协同提速3倍
- 视觉友好呈现:自动选择信息传达效率最高的图文组合方式
2. 浏览器智能体革新
传统AI浏览器常因兼容性差/响应延迟导致任务中断。为此,v2版本创新实现:
graph LR
A[DOM结构解析] --> B[视觉元素聚类]
B --> C[平台专项适配器]
C --> D[并行搜索通道]
D --> E[人机接管接口]
该架构在测试中实现27.8%常规正确率,开启并行思考模式后飙升至38.7%(BrowseComp评测),超越GLM-4.5、Claude-4等主流模型。
3. 智能体协同演进机制
引入MCP Manager Agent架构实现工具动态扩展:
- 📌 生成阶段:自动编写新平台数据抓取脚本
- ✅ 验证阶段:非对称验证原则确保代码可靠性
- 💾 持久化阶段:通过GRPO算法优化工具存储结构
- 🔄 复用阶段:建立工具相似度索引库加速调用
五、工具使用技巧
🚀 效率倍增心法
精准触发并行思考
在复杂指令后添加[深度模式]
参数(例:“分析三座水坝生态影响[深度模式]”),正确率随思考时间可提升40%,尤其适合学术研究场景。跨平台数据对比
使用@平台名
定位信源:“对比Grok4与GPT5用户评价@Twitter@知乎
→ 自动生成带情绪热力图的双平台分析可视化结果导出
输出指令后追加#showcase
:“香港迪士尼客流趋势#showcase”
→ 直接生成含动态图表的HTML网页
六、访问地址
▷ 全球用户:https://skywork.ai
▷ 中国用户:https://tiangong.cn
▷ API接入:GitHub官方仓库提交申请
技术迭代的速度永远超乎想象。当AI从文字理解迈向图文双通道认知,我们获取知识的维度正被重新定义——这或许就是智能体时代的真正起点。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...