微软开源 VibeVoice-1.5B 音频模型,实现语音合成重大突破传统语音合成面临长对话断裂、角色一致性差等痛点。微软VibeVoice通过7.5Hz超低帧率分词器实现3200倍音频压缩,在实测中合成90分钟多角色对话的MOS评分达3.76分。开源框架支持中英双语播...AI项目和框架# AI音频模型6个月前
DeepSeek-V3:高效MoE架构突破,128K上下文开源模型新标杆针对大模型训练成本高的问题,DeepSeek-V3实测训练成本仅278.8万GPU小时,性能超越LLaMA3-405B,支持128K长文本处理,开源社区可即刻部署。AI项目和框架# ai模型# DeepSeek6个月前
多模态Agent革命|拆解Gemini 2.0的MoE架构与Flash引擎如何重塑生产力在生成式AI陷入同质化竞争的2025年,谷歌Gemini 2.0的MoE架构(混合专家系统)与Flash多模态引擎引发技术地震。该模型在MMLU-Pro基准测试中取得76.4%准确率,较前代提升11...AI项目和框架10个月前
蚂蚁集团“天鉴3.0”:动态防御系统阻断新型AI钓鱼攻击,伪造语音识别率99.8%(国际标准97.5%),已接入支付宝风控体系蚂蚁集团推出全新“天鉴3.0”动态防御系统,专攻AI钓鱼攻击防御,语音伪造识别率高达99.8%,远超国际标准。系统无缝接入支付宝风控体系,为用户提供实时、智能的安全保障,从此告别欺诈困扰!?AI项目和框架8个月前
混元图像 2.1 – 一种用于高分辨率(2K)文本到图像生成的高效扩散模型寻找能生成高质量2K图像且原生支持中文的开源AI绘画模型?腾讯混元图像2.1来了!本文带你详细了解其原理、优势,并提供从环境配置到生成第一张图片的完整指南,附赠PromptEnhancer提示词优化技...AI项目和框架# AI图像框架# Tencent# 混元大模型5个月前
智谱GLM-4.6大模型发布:代码能力比肩Claude,国产芯片适配取得突破智谱发布新一代GLM-4.6大模型,代码能力对齐Claude Sonnet 4,支持寒武纪和摩尔线程国产芯片。模型在长上下文、推理、信息搜索等方面全面升级,成为国产大模型新标杆。AI项目和框架# 智谱4个月前
VAREdit图像编辑框架 – 0.7秒极速编辑传统图像编辑工具响应慢?VAREdit实现0.7秒级极速处理,支持多尺度特征融合与分布式计算,开源框架助力开发者高效构建编辑应用。AI项目和框架# AI图像框架# ai框架6个月前
自我进化AI|DeepCogito开源混合推理模型Cogito v1【破局大模型性能天花板】在AI模型陷入“规模竞赛”困局的2025年,DeepCogito推出的开源模型Cogito v1以“自我进化”技术引发行业震动。该系列通过创新的迭代蒸馏与放大(IDA)训练法,实现模型在标准模式与深度...AI项目和框架10个月前
夸克发布健康大模型技术报告,公开主任医师级技术与考试测试集。医疗AI常因专业度不足被诟病?QuarkMed大模型在中国医师资格考试中实现70%准确率,超越GPT-4o等主流模型。通过权威医学知识库构建、多阶段强化学习框架及动态检索增强技术,该模型已服务超百万用...AI项目和框架6个月前
谷歌AI科研编程系统 – 自动生成专家级科学软件科研手动编写软件效率低下。谷歌AI系统融合LLM与树搜索,自动生成和优化科学软件,在scRNA-seq批整合、COVID-19预测等多项任务上性能超越人类专家方案。AI项目和框架# 编程ai# 谷歌5个月前