DeepSeek

共 4 篇文章

排序

发布更新浏览点赞

DeepSeek元旦发布mHC架构论文，解决大模型训练超连接稳定性问题。

DeepSeek元旦发布mHC架构论文，解决大模型训练超连接稳定性问题。

DeepSeek在元旦发布mHC架构论文，提出创新方法解决大模型训练中的超连接稳定性问题。结合深度机器学习模型与多模态预训练趋势，该技术显著提升训练效率与收敛性，推动大模型发展迈向新阶段。

AI快讯 # DeepSeek

6个月前

DeepSeek-V3.1适配华为昇腾芯片，助国产AI生态闭环形成。

DeepSeek-V3.1适配华为昇腾芯片，助国产AI生态闭环形成。

DeepSeek-V3.1大模型通过UE8M0 FP8精度格式、混合推理架构与昇腾芯片深度融合，显著提升国产算力效能，打破英伟达CUDA垄断，推动国产AI产业链从硬件到应用的闭环生态形成。

AI快讯 # DeepSeek # 华为昇腾

11个月前

DeepSeek-V3：高效MoE架构突破，128K上下文开源模型新标杆

DeepSeek-V3：高效MoE架构突破，128K上下文开源模型新标杆

针对大模型训练成本高的问题，DeepSeek-V3实测训练成本仅278.8万GPU小时，性能超越LLaMA3-405B，支持128K长文本处理，开源社区可即刻部署。

AI项目和框架 # ai模型 # DeepSeek

11个月前

DeepSeek-V3.1登陆火山方舟，企业用户免注册免费体验，支持低延迟高效处理。

DeepSeek-V3.1登陆火山方舟，企业用户免注册免费体验，支持低延迟高效处理。

DeepSeek-V3.1正式入驻火山方舟，企业用户无需注册即可免费调用，支持20-40ms超低延迟与500万并发TPM。混合推理架构兼顾速度与深度，联网增强版同步上线，2分钟完成API配置。

AI快讯 # DeepSeek # 字节跳动 # 火山引擎

11个月前