2月6日,快科技资讯报道,DeepSeek在短短两周内迅速崛起,成为全球增长最快的AI应用之一。该应用以其卓越的性能和广泛的应用范围,树立了行业的新标准,引发了整个行业的广泛关注。同时,它在适配和部署方面也得到了广泛的强力支持。昆仑芯的加入,为其发展注入了额外的活力。

DeepSeek两周成为全球增速最快AI应用,昆仑芯如何助力实现这一奇迹?  第1张

DeepSeek两周成为全球增速最快AI应用,昆仑芯如何助力实现这一奇迹?  第2张

昆仑芯曾属于百度旗下的智能芯片与架构部门,至2021年4月,公司实现了独立融资,估值达到130亿人民币。在国内AI加速领域,昆仑芯率先展开布局,并在架构设计、芯片研发、软件系统构建以及应用场景探索等多个领域积累了深厚的经验,这些成果为与DeepSeek的适配工作提供了稳固的技术支撑。

DeepSeek两周成为全球增速最快AI应用,昆仑芯如何助力实现这一奇迹?  第3张

DeepSeek两周成为全球增速最快AI应用,昆仑芯如何助力实现这一奇迹?  第4张

2月5日,蛇年开工之际,昆仑芯发布重大进展,新一代P800万卡集群成功点亮。同时,3万卡集群的点亮工作也即将完成。这些成就凸显了昆仑芯在研发和技术进步方面的快速步伐,并为与DeepSeek的兼容性提供了坚实的硬件基础。

DeepSeek两周成为全球增速最快AI应用,昆仑芯如何助力实现这一奇迹?  第5张

DeepSeek两周成为全球增速最快AI应用,昆仑芯如何助力实现这一奇迹?  第6张

昆仑芯能够适配Deepseek训练推理的所有版本,展现出优异的性能。该芯片支持简易部署,同时拥有明显的成本效益。DeepSeek的V3/R1版本一经发布,昆仑芯便迅速完成了对其全系列模型的适配,包括DeepSeek MoE模型及其精简版稠密模型。此外,昆仑芯还能满足各类大型模型在推理和训练方面的全面需求。

DeepSeek两周成为全球增速最快AI应用,昆仑芯如何助力实现这一奇迹?  第7张

昆仑芯P800适用于Deepseek系列MoE模型的大规模训练,具备MLA和多专家并行等全面特性。该芯片仅需32台设备即可完成模型的全参数训练。同时,它能够高效执行持续训练与微调任务。其显存性能比同类主流GPU高出20%至50%。此外,昆仑芯P800对MoE架构兼容性良好,并首次支持8bit推理。单机配置8张显卡即可运行671B模型。部署过程简便,有效降低了运行成本。

DeepSeek两周成为全球增速最快AI应用,昆仑芯如何助力实现这一奇迹?  第8张

DeepSeek两周成为全球增速最快AI应用,昆仑芯如何助力实现这一奇迹?  第9张

昆仑芯P800平台得益于昆仑芯的软件生态栈,能够迅速完成DeepSeek - V3/R1的部署。部署流程分为两个关键步骤:首先,进行资源准备,包括下载镜像和模型;镜像内含完备的依赖环境,可直接应用,并支持8位推理;用户可从指定渠道下载不同规格的蒸馏模型。其次,进行服务和示例请求的启动,这一步骤同样简便,与vllm社区的使用方式相近,无需额外费用即可轻松操作;启动服务一键完成,用户可按需调整参数配置。

DeepSeek两周成为全球增速最快AI应用,昆仑芯如何助力实现这一奇迹?  第10张

昆仑芯预计将在多个未来人工智能领域拓展其应用领域。敬请关注相关动态。同时,我们诚挚邀请您提出宝贵意见。另外,您可以通过点赞和分享本文来支持我们的工作。