昆仑万维开源Skywork UniPic 2.0:多模态框架实现理解、生图、编辑一体化

AI快讯3天前发布 ai-tab
7 0

产品介绍

昆仑万维在2025年8月13日的SkyWork AI技术发布周中,正式推出开源多模态模型Skywork UniPic 2.0。该模型基于SD3.5-Medium架构,以仅2B参数量实现图像理解、文本生图(T2I)、图像编辑(I2I)三大能力的端到端整合,成为首个在轻量化设计中兼顾高性能与多任务协同的统一框架。

昆仑万维开源Skywork UniPic 2.0:多模态框架实现理解、生图、编辑一体化

适用人群

  1. 设计师与创意工作者:快速生成并迭代视觉素材,支持风格转换与局部编辑。
  2. 游戏开发者:动态生成场景、角色,实时调整美术风格。
  3. 电商与营销团队:一键生成商品图,适配多平台宣传需求。
  4. 教育从业者:创建可视化教学内容,增强交互体验。
  5. 中小型企业开发者:低算力需求(支持RTX 4090消费级显卡)降低技术门槛。

核心功能与技术实现

下表对比UniPic 2.0与主流模型的性能表现:

功能模块技术实现原理性能对比(竞品参考)
多模态统一处理联合Qwen2.5-VL-7B理解模型与SD3.5生成模块,通过预训练连接器对齐特征空间支持端到端任务切换,理解-生成延迟降低40%
高效图像生成基于SD3.5-Medium的2B生图模块,支持1:1/16:9等多比例训练数据DPG-Bench复杂指令生图得分85.5(超越12B Flux.dev)
精准图像编辑Flow-GRPO渐进式强化策略,分阶段优化编辑任务一致性GEditBench-EN得分5.83(领先Bagel的5.12)
复杂指令理解MetaQuery架构扩展语义解析能力GenEval指令遵循得分0.86(逼近7B+7B的Bagel)
风格转换VAE潜变量映射+上下文Token拼接支持吉卜力/像素风等10+风格一键转换
局部修改Skywork-EditReward奖励模型提供像素级反馈精准删除/替换元素(如去除遮挡物体的勺子)

技术原理:三模块协同架构

  1. 生图编辑模块
    • 改造SD3.5-Medium输入层,同时接收文本+图像,通过VAE编码参考图为潜变量Token,与噪声Token拼接实现T2I/I2I双能力。
  2. 统一模型能力
    • 冻结生图模块,联合微调Qwen2.5-VL-7B与连接器,在亿级图像数据上对齐多模态特征空间。
  3. 生图编辑后训练
    • Flow-GRPO策略:分阶段强化编辑与生图任务,避免多任务干扰;
    • 奖励模型:基于GPT-4.1标注的33万样本训练Skywork-EditReward,提供像素级质量评分。

工具使用技巧

  1. 多轮提示优化
    • 首轮生成后,用渐进式指令细化:

      “生成赛博朋克风格街道”→ “添加霓虹灯牌和雨夜效果” → “将行人外套改为荧光黄”。

  2. 跨任务串联
    • 先调用理解能力分析图像元素,再基于结果生成文案或编辑背景:

      输入旅游照片→识别地点/季节→生成宣传文案→转换为手绘风格

  3. 局部编辑指令
    • 使用边界框描述提升精度:

      “将图中左上角猫咪墨镜替换为金色边框”。


访问地址

轻量高效,却蕴藏无限可能。Skywork UniPic 2.0正在重新定义创作边界——你的想象力,从此无需妥协于工具切换的琐碎。


© 版权声明
trae-字节旗下AI代码助手

相关文章

暂无评论

用户头像
none
暂无评论...