产品介绍
昆仑万维在2025年8月13日的SkyWork AI技术发布周中,正式推出开源多模态模型Skywork UniPic 2.0。该模型基于SD3.5-Medium架构,以仅2B参数量实现图像理解、文本生图(T2I)、图像编辑(I2I)三大能力的端到端整合,成为首个在轻量化设计中兼顾高性能与多任务协同的统一框架。

适用人群
- 设计师与创意工作者:快速生成并迭代视觉素材,支持风格转换与局部编辑。
- 游戏开发者:动态生成场景、角色,实时调整美术风格。
- 电商与营销团队:一键生成商品图,适配多平台宣传需求。
- 教育从业者:创建可视化教学内容,增强交互体验。
- 中小型企业开发者:低算力需求(支持RTX 4090消费级显卡)降低技术门槛。
核心功能与技术实现
下表对比UniPic 2.0与主流模型的性能表现:
功能模块 | 技术实现原理 | 性能对比(竞品参考) |
---|---|---|
多模态统一处理 | 联合Qwen2.5-VL-7B理解模型与SD3.5生成模块,通过预训练连接器对齐特征空间 | 支持端到端任务切换,理解-生成延迟降低40% |
高效图像生成 | 基于SD3.5-Medium的2B生图模块,支持1:1/16:9等多比例训练数据 | DPG-Bench复杂指令生图得分85.5(超越12B Flux.dev) |
精准图像编辑 | Flow-GRPO渐进式强化策略,分阶段优化编辑任务一致性 | GEditBench-EN得分5.83(领先Bagel的5.12) |
复杂指令理解 | MetaQuery架构扩展语义解析能力 | GenEval指令遵循得分0.86(逼近7B+7B的Bagel) |
风格转换 | VAE潜变量映射+上下文Token拼接 | 支持吉卜力/像素风等10+风格一键转换 |
局部修改 | Skywork-EditReward奖励模型提供像素级反馈 | 精准删除/替换元素(如去除遮挡物体的勺子) |
技术原理:三模块协同架构
- 生图编辑模块
- 改造SD3.5-Medium输入层,同时接收文本+图像,通过VAE编码参考图为潜变量Token,与噪声Token拼接实现T2I/I2I双能力。
- 统一模型能力
- 冻结生图模块,联合微调Qwen2.5-VL-7B与连接器,在亿级图像数据上对齐多模态特征空间。
- 生图编辑后训练
- Flow-GRPO策略:分阶段强化编辑与生图任务,避免多任务干扰;
- 奖励模型:基于GPT-4.1标注的33万样本训练Skywork-EditReward,提供像素级质量评分。
工具使用技巧
- 多轮提示优化
- 首轮生成后,用渐进式指令细化:
“生成赛博朋克风格街道”→ “添加霓虹灯牌和雨夜效果” → “将行人外套改为荧光黄”。
- 首轮生成后,用渐进式指令细化:
- 跨任务串联
- 先调用理解能力分析图像元素,再基于结果生成文案或编辑背景:
输入旅游照片→识别地点/季节→生成宣传文案→转换为手绘风格。
- 先调用理解能力分析图像元素,再基于结果生成文案或编辑背景:
- 局部编辑指令
- 使用边界框描述提升精度:
“将图中左上角猫咪墨镜替换为金色边框”。
- 使用边界框描述提升精度:
访问地址
- 项目主页:https://unipic-v2.github.io/
- HuggingFace模型:
- GitHub代码库:https://github.com/SkyworkAI/UniPic
轻量高效,却蕴藏无限可能。Skywork UniPic 2.0正在重新定义创作边界——你的想象力,从此无需妥协于工具切换的琐碎。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...