上海交大推出Gen3DHF数据集,评估AI生成3D人脸质量

AI快讯6小时前发布 ai-tab
3 0

产品介绍

主体机构:上海交通大学智能人机交互实验室
核心产品:Gen3DHF数据集 + LMME3DHF评估模型
解决痛点:传统3D人脸生成存在光线扭曲、表情失真等难以量化的质量问题,人工评估成本高且主观性强。该成果首次实现从“主观打分”到“客观指标”的跨越,为AI生成3D人脸提供工业级评测标准。

上海交大推出Gen3DHF数据集,评估AI生成3D人脸质量

适用人群

  1. 数字人开发公司:优化虚拟主播/游戏角色面部真实感
  2. 医疗影像机构:辅助整形手术模拟与术后效果评估
  3. 金融安全团队:提升远程身份认证的防伪能力
  4. AI研究人员:训练高质量3D生成模型

核心功能与实现原理

功能模块技术实现原理应用价值
双维度评分分离质量(清晰度/畸变)与真实性(类人程度),采用4000+人类标注MOS训练回归模型替代人工评分,成本降低90%
失真定位通过视觉-文本对齐生成热力图,标识光线异常、表情扭曲等6类失真区域精准定位问题,优化效率提升3倍
动态视频评估3D卷积网络提取时空特征,捕捉眨眼、微表情等连续动作的连贯性解决静态图像评估的局限性
多模态问答基于Qwen2.5-VL-7B大模型微调,支持“请描述左脸失真类型”等自然语言交互提供可解释性诊断报告
对抗鲁棒性验证嵌入GAN生成对抗样本,增强模型对渲染噪声的免疫力医疗/金融等高敏场景误判率下降40%

技术原理拆解

  1. 数据构建

    • 采集2000个3D人脸视频,覆盖5种生成模型(如PanoHead、StyleSDF)
    • 24名标注员完成4000+质量/真实性双维度评分,6000+失真描述文本
    • 创新标注失真感知显著图:标注员标记失真区域并分类(如“颧骨透光异常”)
  2. 模型架构

    graph LR
    A[输入视频] --> B(3D卷积编码时空特征)
    B --> C{多模态融合层}
    A --> D(文本指令:如“评分真实性”)
    D --> C
    C --> E[质量回归模块]
    C --> F[失真定位解码器]
    C --> G[文本诊断输出]
  3. 训练策略

    • 双LoRA微调:视觉编码器(r=8) + 大语言模型适配器,冻结主干防过拟合
    • 三任务联合训练:质量回归(L1 Loss) + 失真分类(CrossEntropy) + 显著图生成(Conv-Deconv)

工具使用技巧

▶ 虚拟人开发者这样做:

# 接入LMME3DHF评估API
from gen3dhf_eval import load_model
evaluator = load_model("LMME3DHF")
result = evaluator.predict(
    video="avatar.mp4", 
    prompt="输出左脸失真类型与热力图"
)
print(f"真实性得分:{result.authenticity},主要失真:{result.distortion_type}")

优化路径

  1. 若热力图显示眼部模糊 → 增加生成模型瞳孔分辨率参数
  2. 若文本报告“颧骨透光” → 调整材质渲染引擎折射率

▶ 医美机构落地场景:

术后模拟系统接入评估指标,客户满意度↑40%
操作流:3D扫描 → 生成修复效果视频 → LMME3DHF评分 → 输出“鼻梁对称性:92分”报告


访问地址

🔗 数据集申请https://gen3dhf.sjtu.edu.cn (需提交研究用途)
🔗 在线演示https://demo.gen3dhf.cn (上传视频即时评测)


附:与传统方法对比

评估指标传统IQA(如BRISQUE)LMME3DHF
人脸特异性误判皮肤纹理为失真精准区分面部特征
动态连贯性不支持SRCC≥0.92
可解释性仅输出分数文本+热力图诊断
多维度评测单一质量分质量/真实性分离

该成果已被计算机视觉顶会MM 2025收录,论文详见:https://arxiv.org/pdf/2504.20466


© 版权声明
trae-字节旗下AI代码助手

相关文章

暂无评论

用户头像
none
暂无评论...