可灵AI视频多图参考模型升级，效果提升102%，新增局部参考

AI快讯11个月前发布 ai-tab

203 0

? 产品介绍

可灵AI是快手旗下AI视频生成平台，致力于通过多模态技术降低视频创作门槛。2025年7月24日，其多图参考生视频模型完成重磅升级，经盲测验证，模型效果较上一版本提升102%，尤其在角色一致性、动态流畅度、画风稳定性方面实现突破性进展。

此次升级同步推出局部参考功能，支持用户框选图片中特定区域（如人脸、服饰、主体），避免无关元素干扰生成结果，大幅提升创作精准度。

可灵AI

? 适用人群

数字内容创作者：需快速生成剧情感短视频的博主
电商品牌方：虚拟服装展示/产品动态广告制作
影视预演团队：低成本测试分镜与场景联动
教育工作者：将抽象概念转化为动态演示视频
艺术设计从业者：风格化视觉内容探索

⚙️ 核心功能与技术实现

以下按优先级列出关键能力及技术原理：

功能	技术原理说明	用户价值
多图参考融合	多模态对齐机制：整合1-4张图的角色/场景/物体特征，通过跨模态注意力层对齐文本提示与视觉元素	解决多镜头主体不一致问题
局部参考控制	区域特征提取器：通过语义分割模型识别用户框选区域，仅提取该部分特征嵌入生成链路	避免背景干扰，精准还原细节
动态质量优化	强化学习微调：采用DiT架构+VAE解码器优化运动轨迹，提升多主体互动合理性（如打斗/对话）	告别慢动作，实现自然物理运动
画风一致性保持	风格自适应归一化：分析参考图色彩/光影分布，在生成过程中约束每帧的纹理与色调分布	影视级画面质感统一
复杂语义响应	多粒度提示词解析：将文本指令拆解为动作/场景/情绪模块，分别绑定对应视觉元素	精准实现“模特转身微笑”等细节

? 工具使用技巧

参考图选择原则
- 主体清晰：优先选用高分辨率、背景简洁的图片（如白底产品图）
- 风格统一：多张参考图需保持相近光影色调，避免AI混淆风格
提示词黄金公式
“动词+名词+环境”
- 例：“戴太阳镜的拟人化猫转身走向T台，灯光聚焦服饰”
局部参考实操
- 在咖啡杯特写图中仅框选杯体，生成时忽略背景杂物
- 对人像图涂抹脸部区域，确保表情动态精准还原
多主体互动设计
上传角色A（全身照）+角色B（半身照）+场景图，输入：
“角色A伸手递出礼物，角色B惊喜拥抱，背景雪花飘落”

? 访问地址

? 可灵AI官网：https://klingai.com/cn/
（支持PC/移动端，免费体验升级版多图参考功能）

© 版权声明

文章版权归作者所有，未经允许请勿转载。

trae-字节旗下AI代码助手

相关文章

OpenAI斩获83亿美元融资，3000亿估值背后的技术野心与商业未来！

OpenAI斩获83亿美元融资，3000亿估值背后的技术野心与商业未来！

11个月前

Meta豪掷数千亿美元押注AI霸权！扎克伯格重构“超级智能”生态版图

Meta豪掷数千亿美元押注AI霸权！扎克伯格重构“超级智能”生态版图

12个月前

快手KAT-V1自动思考大模型：40B与200B双版本开源，智能切换思考形态

快手KAT-V1自动思考大模型：40B与200B双版本开源，智能切换思考形态

11个月前

Meta因用盗版成人片训AI，被两公司起诉索赔3.59亿美元。

Meta因用盗版成人片训AI，被两公司起诉索赔3.59亿美元。

10个月前

暂无评论

none

暂无评论...