百度杰出系统架构师王雁鹏为何需要 10 万卡集群？AGI 时代的算力竞赛已开启

11月6日，百度智能云技术沙龙活动中，百度架构师王雁鹏披露，全球科技巨头正在打造一个由10万台服务器组成的集群，旨在加速推进通用人工智能（AGI）的发展。该信息一经公布，便迅速引发了业界的广泛关注。巨头们的战略布局，究竟将如何深刻影响人工智能的未来？这一问题亟待深入研究。

百度杰出系统架构师王雁鹏为何需要 10 万卡集群？AGI 时代的算力竞赛已开启第1张

美国科技企业布局10万卡集群

美国科技企业正在积极部署一个由十万台服务器组成的集群。两个月后，马斯克宣布该集群被命名为“巨人”，并计划额外增加十万颗GPU，其中包含五万颗更为先进的英伟达H200型号。OpenAI与微软在计算集群交付进度上产生了分歧。这一战略部署反映了ScalingLaw定律的持续效应，目的是应对模型参数增长带来的巨大算力需求。正如一位微软的工程师指出，在构建用于GPT-6的十万台H100训练集群时，整个电网甚至出现了崩溃，这一现象突显了这一挑战的严重性。

大规模布局既潜藏风险，亦蕴藏收益。科技进步促使企业追求更强的计算能力，但这也带来了电网承载等众多挑战。为此，企业需在追求速度的同时，确保稳定性，努力寻找一个更理想的平衡点。

百度杰出系统架构师王雁鹏为何需要 10 万卡集群？AGI 时代的算力竞赛已开启第2张

数据中心规模之巨大

该数据中心预计将跻身全球最大规模数据中心行列，内部可能安装数十万枚英伟达AI芯片。作为支撑大规模集群计算的核心设施，其规模正不断扩张。目前，数据中心的建设重点在于大规模集群，集群规模的增加直接表明其能满足更高级别的计算需求。

另一方面，大规模数据中心的建设与维护需要投入庞大的基础设施资源。若发生故障，可能造成灾难性的后果。在追求规模扩张的过程中，必须高度重视建立相应的安全与稳定保障体系。否则，将可能遭遇数据丢失、设备故障等严重问题。

国内企业面临的算力挑战

百度杰出系统架构师王雁鹏为何需要 10 万卡集群？AGI 时代的算力竞赛已开启第3张

我国企业普遍面临算力供应的不稳定性，建立单一的大型训练集群遭遇重重困难。这种状况使得我国企业在算力竞争中处于相对劣势，具体体现在资源储备不如国外同行，且设备先进性可能存在较大差异。

国内企业不可因此止步不前。他们应当主动探寻解决问题的方法，借鉴百度的“百舸”模式。企业必须致力于寻找适合自身发展的算力解决方案，否则在人工智能迅猛发展的潮流中，将逐渐被抛在后面。

百度杰出系统架构师王雁鹏为何需要 10 万卡集群？AGI 时代的算力竞赛已开启第4张

百度百舸应对之策

百度百舸在多芯混训领域展现出卓越实力。该系统拥有统一管理异地、不同规模异构算力的功能，同时构建了多芯资源池。工作负载提交后，系统能够自动挑选适宜的芯片，并高效运用剩余资源。值得一提的是，百舸还配备了集群稳定性诊断工具，能够快速检测并锁定故障点。

百度自主开发的BCCL技术有效实现了对故障的快速定位与修复，大幅减少了故障恢复所需的时间。该技术的应用，使百度在应对算力集群挑战方面展现出了显著优势。国内其他企业亦可参考并采纳这些技术理念。

10万卡集群与云服务

在10万卡集群推出之前，云服务供应商在为企业进行大规模模型训练时，普遍采用单一集群的配置。然而，随着10万卡集群的诞生，企业得以利用大规模集群为众多客户提供服务，并实现资源的灵活调配。这一技术革新不仅提高了资源利用效率，减少了企业的运营支出，而且显著增强了云服务供应商在市场上的竞争力。

新模式的推出，拓展了企业在云计算资源利用方面的可能性，特别是在大规模模型训练方面。这一举措不仅推动了大规模模型研究的前进，还加速了云计算行业向集约化与高效化趋势的演进。

科技发展前景展望

当前，科技领域正呈现出向大规模集群计算演进的态势，这一趋势已日益明显。众多国家的科技企业正努力跟上这一步伐，然而，在这一过程中，他们既要应对诸多挑战，也迎来了相应的机遇。为了顺应这一趋势，企业需要在技术研发、资源整合和战略规划等多个维度上实现全面升级和创新。

当前，人工智能领域正迎来飞速发展，全球范围内的企业都在积极探索。面对国内企业在算力方面的局限，各位读者有何高见？这一问题引发广泛讨论，我们诚挚邀请您点赞、转发，并分享您的看法。

百度杰出系统架构师王雁鹏为何需要 10 万卡集群？AGI 时代的算力竞赛已开启

admin管理员

20 万级汽车市场，这款车凭什么成为众多消费者的理想之选？

2024 年莫斯科金砖国家工商理事会发布白皮书，出门问问 AI 实力震撼全球

百度杰出系统架构师王雁鹏为何需要 10 万卡集群？AGI 时代的算力竞赛已开启

admin管理员

20 万级汽车市场，这款车凭什么成为众多消费者的理想之选？

2024 年莫斯科金砖国家工商理事会发布白皮书，出门问问 AI 实力震撼全球

相关文章