NVIDIA最新推出的旗舰级AI芯片Blackwell遭遇过热问题,这一事件具有重大影响。芯片过热不仅可能影响性能和损害组件,还可能引发交付延误,引起了广泛的关注。
Blackwell的过热问题
报道指出,Blackwell芯片在配置72个处理器的服务器机架中,存在显著的过热现象。此类机架的功耗可达到120kw。过高的功耗可能是导致芯片过热的重要原因之一。过热问题的影响不容忽视,它不仅会削弱芯片性能,还可能加剧芯片组件的损坏,这对于NVIDIA及其众多期待使用该芯片的用户而言,无疑是一个不利的消息。
NVIDIA官方发言人确认,工程更新进程在正常轨道,且符合既定目标。他们指出,尽管在研发阶段遇到了过热现象,但这种情况在技术迭代中是可预见的。不过,实际情况是,过热问题已达到可能干扰产品交付的严重程度。
官方的回应
NVIDIA官方发言人透露,公司正与多家云服务供应商展开合作。这些供应商对于工程团队及流程运作至关重要。通过发言人的回应,我们了解到,公司正努力表明这一工程迭代过程属常规操作,并正积极应对所遇问题。
发言人虽强调积极态度,但实际所遇挑战显著。GB200系统虽先进,却需适配多个数据中心,故需客户参与定制。过热问题非NVIDIA独力可解,需多方合作共同应对。
市场需求强劲
尽管Blackwell芯片遭遇了过热等技术挑战,其市场需求却依然旺盛。在全球AI芯片领域,NVIDIA的市场份额高达近90%。这一显著的市场份额不仅彰显了NVIDIA的领导地位,同时也表明即便Blackwell芯片存在问题,市场对其产品仍抱有高度期待。
NVIDIA透露,客户正积极抢占GB200系统的市场份额。尽管面临技术难题,市场端客户仍迫切希望尽早获得相关产品。他们并未因当前的热度以及潜在的延迟交付风险而减缓步伐。
并非首次延迟
Blackwell芯片并非首次因设计问题导致交付延期。今年3月,该芯片系列一经推出,年中便有关于架构设计隐患的消息传出。此前,该芯片已因设计缺陷问题导致过一次交付延误。
NVIDIA的连续交付延误可能对其声誉及产品信任度造成损害。用户及合作伙伴可能对公司的产品开发流程和管理能力产生质疑,这进而可能对后续产品的推广与销售产生不利影响。
之前修复预期
NVIDIA首席执行官黄仁勋于10月后期宣布,设计上的问题已得到修正。得益于长期合作伙伴台积电的支持,Blackwell芯片的设计缺陷已成功克服。原本计划在第四季度进行发货,此举为市场注入了信心。
实际修复的难度可能远超预期。原本以为问题已解决,货物可以如期发货,然而,由于过热问题再次出现,导致发货延迟。这一情况反映出,之前的修复工作可能并未彻底消除芯片所存在的潜在隐患。
目前的发货预期
目前信息显示,BlackwellGPU的改进版本预计最早将于明年一月底开始发货,这一时间点比黄仁勋先前预期的第四季度出货时间推迟了。此延迟迫使众多期待获得该产品的客户以及依赖其技术的项目不得不重新调整计划。对此,我们不禁质疑:NVIDIA能否如约在明年一月底实现出货?欢迎各位在评论区发表看法。同时,若您认为本文对您有所帮助,不妨点赞并分享。