DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第1张

DeepSeek创始人接受采访的英文翻译及注释已在国际间流传,目的在于挖掘该公司崛起的脉络。此举表明DeepSeek在国际舞台上已受到广泛关注,其成长路径宛如待解的谜团。

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第2张

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第3张

DeepSeek的年轻化现象

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第4张

DeepSeek团队以年轻化特点著称。据量子位整理资料得知,年轻是团队的核心特征。在众多创新成果中,年轻一代占据主导。诸如MLA新型注意力机制、GRPO强化学习对齐算法等关键创新,主要由年轻人提出。数据显示,团队创新力量中年轻人的比例相当高。这些年轻人凭借其才华与创造力,为DeepSeek注入活力。此外,年轻人在团队中的影响力在后续发展成果中也得到体现,众多关键成果均由他们主导推进。

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第5张

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第6张

DeepSeek团队中的青年成员不仅局限于理论研究,他们的实际成果同样显著。例如,DeepSeekMath项目由三位核心作者在实习期间取得了重要进展。朱琪豪作为青年代表,毕业于北京大学计算机学院软件研究所,2024届博士,他主导开发了DeepSeek - Coder - V1,且其博士论文被纳入激励计划。这些青年才俊的加入,持续推动DeepSeek项目的拓展。

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第7张

年轻成员的优秀成果

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第8张

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第9张

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第10张

DeepSeek团队年轻成员推出的GRPO成果,在业界引起了广泛关注。具体而言,阿里Qwen 2.5开源大模型的技术文档中提及了GRPO的应用。这反映出DeepSeek年轻成员的研究成果已对其他企业产生影响。此外,代达劢等优秀青年才俊,如2024年毕业于北京大学计算机学院计算语言研究所,其博士论文入选激励计划,并将个人成果贡献给了DeepSeek团队。目前,这些年轻成员的研究成果在技术创新和影响力方面均具有重要意义。

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第11张

赵成钢于2024年加入清华大学,大二时便成为超算团队的正式成员,并多次赢得比赛。作为DeepSeek公司的训练/推理基础架构工程师,他曾在英伟达实习。这些年轻成员在多个领域和环节上取得的成就持续累积,正逐步加强DeepSeek在行业中的关键地位。

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第12张

团队成员学历特征

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第13张

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第14张

DeepSeek团队中博士研究生占据相当比例。以朱琪豪为例,其博士论文的研究成果被应用于DeepSeek - Coder - V1的开发。同样毕业于北京的代达劢,其研究也对DeepSeek在预训练语言模型领域产生了积极影响。这些博士成员利用他们在学术阶段的深入研究,成功将前沿学术成果与团队实际项目相结合。

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第15张

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第16张

除了博士研究生外,赵成钢等人在本科时期便展现出卓越才能。观察各项目中成员的学历构成,博士在读、应届毕业生以及毕业不久的成员占据了相当比例。这种学历构成与团队的创新成果紧密相关,众多高学历成员为团队研发贡献了坚实的智力支持。

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第17张

团队领导的年轻化

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第18张

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第19张

DeepSeek团队的管理层呈现年轻化趋势。例如,吴俣负责领导该团队的训练工作,他在2019年完成博士学位,并在加入DeepSeek前于微软MSRA项目组积累了丰富的经验。吴俣在毕业后的4至6年间担任领导职务,这在团队高层中较为年轻。年轻领导者拥有独特的思维模式和创新观点,对团队的发展方向产生着重要影响。

加入DeepSeek后,这些年轻领导者肩负了关键职责。吴俣主要负责参与数学与代码大型模型的相关工作。他们凭借专业素养,指导年轻团队,激发团队活力,并在战略规划和项目推进等多个领域展现出不可或缺的影响力。

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第20张

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第21张

重视模型算法与硬件工程配合

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第22张

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第23张

DeepSeek在国内众多AI企业中,显著优势在于对模型算法与硬件工程协同发展的重视。该公司拥有一支由DeepSeek LLM v1至v3版本持续参与、专注于算力优化的专业团队。团队成员背景多元,其中包括拥有英伟达工作或实习经验的成员,这些经验为硬件相关工作带来了宝贵的资源。

部分成员源自阿里云,同时,众多人员自幻方AI调派或转至本团队,他们的加入确保了大型模型项目在算法与硬件两方面均得到充分关注,构建了积极的协作机制。这种软硬件融合的方式,为DeepSeek带来了独特的竞争优势,确保了模型在算法上卓越,同时在硬件层面高效运行。

年轻人对团队持续影响

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第24张

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第25张

通过观察陆续发布的论文作者列表,我们可以看到,DeepSeek项目对年轻研究者的贡献显著且持久。这些研究者包括在读博士生和刚毕业不久的学者,他们在项目中的比例相当高。此外,许多年轻研究者自项目初期便积极参与,例如,从第一版到第三版一直参与的成员数量不少。

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第26张

DeepSeek-v3大模型横空出世,1/11算力超越Llama 3!这支年轻团队究竟有何魔力?  第27张

持续影响由年轻成员带来,不仅体现在他们持续参与项目,更在于他们在每个版本更新中扮演的关键角色。他们在技术创新和优化工作中的贡献,是团队持续进步的关键动力。这种影响力如同持续增强的稳定动力,助力DeepSeek在行业领域内稳步前进。

DeepSeek团队呈现出的年轻化趋势和软硬件结合的协作方式,是否能在即将到来的AI行业竞争中独占鳌头?