2月3日,快科技报道指出,DeepSeek大模型在美国AI领域备受瞩目。该模型的表现与OpenAI的O1模型相当,按常理应受到认可。然而,其训练成本显著低于同类产品,这一情况在业界引发了广泛讨论。
DeepSeek模型概况
DeepSeek的模型在性能方面表现卓越。尽管官方未公开大模型训练硬件的具体规模,但已知的是,仅利用2048颗H800 GPU,便在两个月内成功训练出了参数量高达6710亿的V3大模型。该训练过程总计耗费了280万个GPU小时。这一成果充分展现了其训练的高效性。
Meta的研究成果备受关注,他们仅用54天时间,凭借16381颗H100 GPU,成功训练了参数量达4050亿的Llama 3模型。在此过程中,GPU累计使用时长高达3080万小时。与此同时,DeepSeek在硬件成本上展现出明显优势,其成本仅为Meta的1/11。
成本背后的硬件推测
SemiAccurate研究机构发布的数据显示,DeepSeek可能掌握了约六万枚NVIDIA的GPU。具体来看,A100型号有一万枚,H100型号有一万枚,H800型号有一万枚,而H20型号则有三万枚。这些GPU的总价值已超过140亿元人民币。值得注意的是,A100和H100已被列入美国对华出口限制清单,H800也曾受到出口限制,目前只有H20符合出口条件。
美国方面的猜疑
欧美多方面人士对DeepSeek涉嫌通过美国出口管控的漏洞非法获取了NVIDIA生产的H100高性能GPU表示质疑,数量可能超过五万块。这种质疑主要基于DeepSeek在硬件资源相对较少的情况下,依然取得了显著的训练成效。
美国政府持续关注高科技领域的流失现象,这一忧虑源自其对技术掌控的坚定立场,同时亦聚焦于卓越成果的获取与硬件成本等关键问题。
新加坡数据异常的关联
NVIDIA的财务报告揭示,自2022年末中国对AI芯片出口实施限制以来,新加坡在该公司收入中所占比例已从原来的9%上升至现在的22%。这一比例的显著增长与DeepSeek事件紧密相连。
美国对DeepSeek可能通过新加坡的第三方企业获取受管制出口的NVIDIA人工智能GPU表示担忧,这一事件导致新加坡成为关注的中心。
美国采取的行动
美国白宫与联邦调查局等相关机构已对DeepSeek涉嫌非法获取芯片展开调查。部分美国人士提出,有必要提高对新加坡进出口的监管力度,以阻止受限物品流入中国市场,从而降低技术非法传播的风险。
调查活动目前仍在进行中。美方尚未掌握足以对DeepSeek定罪的充足证据。
NVIDIA的回应
NVIDIA对此进行了回应,强调其始终遵循相关法律法规。据公司披露,在新加坡的贸易行为中,涉及的大多数货物并未被运往中国,而是被转移到了其他地区。
NVIDIA指出,其与新加坡的收益计算是以客户的账单地址为依据,而非货物实际送达的地点。因此,这些收益数据不能作为货物已送达中国的证据。
该事件目前正接受调查和广泛讨论,公众对美方所实施的严格措施是否恰当持有不同看法。若您对这一话题有独到的看法,请给予点赞和转发,同时欢迎在评论区发表您的观点。