昆仑万维开源Skywork UniPic：1.5B参数统一图像理解、生成与编辑

AI快讯5个月前发布 ai-tab

64 0

? 产品介绍

昆仑万维作为国内AI开源领域的先锋，于2025年7月正式推出Skywork UniPic——全球首个轻量级多模态统一模型。基于自回归架构设计，该模型将GPT-4o的技术路线平民化，仅用1.5B参数即实现图像理解、生成与编辑的端到端协同，大幅降低多模态AI的应用成本。

Skywork UniPic

? 适用人群

用户群体	典型场景举例
AI初学者	低成本入门多模态项目开发
创意设计师	快速生成/编辑商业插画、海报素材
教育机构	教学演示、可视化知识点工具
创业者/极客	二次开发集成至相册、教育类APP

⚙️ 核心功能

1. 图文理解：像人类一样“读图”

技术原理：采用SigLIP2主干网络，通过对比学习优化图像-文本语义对齐，精准识别场景氛围、物体关联等深层信息（如“图中人物情绪”或“悉尼歌剧院地标”）。
案例：输入城市夜景图+“描述氛围”，输出“霓虹闪烁中透出都市的匆忙感”✨。

2. 文本生成图像：细节控的福音

技术原理：基于MAR编码器的掩码自回归生成，逐步预测图像patch，支持1024×1024高清输出。结合Skywork-ImgReward奖励模型筛选数据，确保生成结果符合人类审美。
案例：输入“黄昏下的小狗在河边奔跑”，生成绒毛质感、水面光斑等细节清晰的画面。

3. 精准图像编辑：一键换风格/元素

技术原理：通过参考图+指令条件控制，调用MAR编码器实现像素级修改。专用Skywork-EditReward模型自动过滤30%低质量样本，确保编辑后语义连贯（如移除图中飞鸟并自然补全背景）。
案例：输入“将人像转为吉卜力风格”，保留发丝细节不糊边。

4. 端到端多任务协同

技术原理：渐进式多任务训练策略——先单任务收敛（如生成），再引入理解与编辑任务，避免能力冲突。共享编码器实现跨任务知识迁移，突破传统模型“全而不精”的瓶颈。

5. 轻量化高效部署

技术原理：双编码器（MAR+SigLIP2）共享1.5B参数语言模型，通过分层分辨率训练（256→1024逐步提升）兼顾细节与效率。RTX 4090即可流畅运行，推理速度提升40%。

?️ 工具使用技巧

提升输出质量的3个秘诀：

复杂指令拆解：
将“生成江户街景+像素风+彩虹寿司”拆分为分步指令，降低模型理解负荷。
编辑指令明确化：
使用“替换A为B”而非“修改某处”，例如“将星星替换为蜡烛”比“调整天空元素”更精准。
分辨率渐进生成：
先以512×512生成基础图，再逐步提升至1024×1024，避免显存溢出。

? 访问地址

模型下载：
https://huggingface.co/Skywork/Skywork-UniPic-1.5B
技术报告：
https://github.com/SkyworkAI/UniPic/blob/main/UNIPIC.pdf
全流程代码：
https://github.com/SkyworkAI/UniPic

? 小贴士：首次运行时尝试官方示例prompt（如“吉卜力风格转绘”），快速体验三大能力协同效果！

© 版权声明

文章版权归作者所有，未经允许请勿转载。

trae-字节旗下AI代码助手

相关文章

剂泰科技：用AI设计“纳米火箭”，实现细胞级精准给药革命

剂泰科技：用AI设计“纳米火箭”，实现细胞级精准给药革命

4个月前

2025年6月AI网站榜发布｜智能体榜单首亮相，场景化工具增速超200%

2025年6月AI网站榜发布｜智能体榜单首亮相，场景化工具增速超200%

6个月前

豆包App自动附带无法关闭的短视频链接，引发家长担忧孩子学习时沉迷娱乐。

豆包App自动附带无法关闭的短视频链接，引发家长担忧孩子学习时沉迷娱乐。

4个月前

智元机器人获富临精工数千万订单，部署近百台远征A2-W机器人

智元机器人获富临精工数千万订单，部署近百台远征A2-W机器人

4个月前

暂无评论

none

暂无评论...