昆仑万维开源Skywork UniPic 2.0：多模态框架实现理解、生图、编辑一体化

AI快讯5个月前发布 ai-tab

84 0

产品介绍

昆仑万维在2025年8月13日的SkyWork AI技术发布周中，正式推出开源多模态模型Skywork UniPic 2.0。该模型基于SD3.5-Medium架构，以仅2B参数量实现图像理解、文本生图（T2I）、图像编辑（I2I）三大能力的端到端整合，成为首个在轻量化设计中兼顾高性能与多任务协同的统一框架。

Skywork UniPic 2.0

适用人群

设计师与创意工作者：快速生成并迭代视觉素材，支持风格转换与局部编辑。
游戏开发者：动态生成场景、角色，实时调整美术风格。
电商与营销团队：一键生成商品图，适配多平台宣传需求。
教育从业者：创建可视化教学内容，增强交互体验。
中小型企业开发者：低算力需求（支持RTX 4090消费级显卡）降低技术门槛。

核心功能与技术实现

下表对比UniPic 2.0与主流模型的性能表现：

功能模块	技术实现原理	性能对比（竞品参考）
多模态统一处理	联合Qwen2.5-VL-7B理解模型与SD3.5生成模块，通过预训练连接器对齐特征空间	支持端到端任务切换，理解-生成延迟降低40%
高效图像生成	基于SD3.5-Medium的2B生图模块，支持1:1/16:9等多比例训练数据	DPG-Bench复杂指令生图得分85.5（超越12B Flux.dev）
精准图像编辑	Flow-GRPO渐进式强化策略，分阶段优化编辑任务一致性	GEditBench-EN得分5.83（领先Bagel的5.12）
复杂指令理解	MetaQuery架构扩展语义解析能力	GenEval指令遵循得分0.86（逼近7B+7B的Bagel）
风格转换	VAE潜变量映射+上下文Token拼接	支持吉卜力/像素风等10+风格一键转换
局部修改	Skywork-EditReward奖励模型提供像素级反馈	精准删除/替换元素（如去除遮挡物体的勺子）

技术原理：三模块协同架构

生图编辑模块
- 改造SD3.5-Medium输入层，同时接收文本+图像，通过VAE编码参考图为潜变量Token，与噪声Token拼接实现T2I/I2I双能力。
统一模型能力
- 冻结生图模块，联合微调Qwen2.5-VL-7B与连接器，在亿级图像数据上对齐多模态特征空间。
生图编辑后训练
- Flow-GRPO策略：分阶段强化编辑与生图任务，避免多任务干扰；
- 奖励模型：基于GPT-4.1标注的33万样本训练Skywork-EditReward，提供像素级质量评分。

工具使用技巧

多轮提示优化
- 首轮生成后，用渐进式指令细化：
  “生成赛博朋克风格街道”→ “添加霓虹灯牌和雨夜效果” → “将行人外套改为荧光黄”。
跨任务串联
- 先调用理解能力分析图像元素，再基于结果生成文案或编辑背景：
  输入旅游照片→识别地点/季节→生成宣传文案→转换为手绘风格。
局部编辑指令
- 使用边界框描述提升精度：
  “将图中左上角猫咪墨镜替换为金色边框”。

访问地址

项目主页：https://unipic-v2.github.io/
HuggingFace模型：
- https://huggingface.co/Skywork/UniPic2-SD3.5M-Kontext-2B
- https://huggingface.co/Skywork/UniPic2-Metaquery-9B
GitHub代码库：https://github.com/SkyworkAI/UniPic

轻量高效，却蕴藏无限可能。Skywork UniPic 2.0正在重新定义创作边界——你的想象力，从此无需妥协于工具切换的琐碎。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

trae-字节旗下AI代码助手

相关文章

OpenAI计划出租AI基础设施创收，以缓解高昂运营成本压力。

OpenAI计划出租AI基础设施创收，以缓解高昂运营成本压力。

4个月前

零一万物推出企业大模型平台及Agent“万仔”，提供定制化AI解决方案

零一万物推出企业大模型平台及Agent“万仔”，提供定制化AI解决方案

5个月前

阿里开源ThinkSound模型：首款CoT音频工具重塑音画同步 | 通义实验室

阿里开源ThinkSound模型：首款CoT音频工具重塑音画同步 | 通义实验室

6个月前

钉钉AI表格发布：业务构建+批量处理神器，免费用量开放中！

钉钉AI表格发布：业务构建+批量处理神器，免费用量开放中！

6个月前

暂无评论

none

暂无评论...