DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第1张

多模态大模型基础搭建

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第2张

DeepSeek打造了一款融合理解和生成能力的大型多模态模型。该模型以DeepSeek - LLM - 1.5b - base和DeepSeek - LLM - 7b - base为基础。在视觉图像生成领域,模型不仅使用了LLM自带的预测组件,还引入了随机初始化的预测组件,这进一步丰富了图像预测的技术手段。

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第3张

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第4张

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第5张

开发者依托这些基础模型,专注于拓展多模态技术边界,旨在打造更为智能与高效的图像及文本综合处理系统,以适应现代信息处理的多样化需求。

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第6张

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第7张

训练策略调整背景

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第8张

研究团队对比了Janus最新版的前三个训练阶段,发现原有的训练手段效果不佳,进而引发了计算效率的显著降低。这一重要发现对研发团队的策略调整起到了决定性作用,推动了他们对训练流程进行全方位的审视和优化。

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第9张

训练效率不高限制了模型性能的提升,导致性能发展速度放缓,研究人员不得不探索更高效的训练途径。

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第10张

第一阶段加强训练

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第11张

研发团队在初期阶段加入了额外的训练环节,这一行为使模型在ImageNet数据集上的训练过程更加深入。此调整目的在于提升模型对图像数据特征的全面理解,并加强其解析图像信息的能力。

经过长期专项训练,模型在处理海量图像数据时展现出卓越能力,有效提取了更为精确的特征。此成就为后续视觉生成与理解任务提供了坚实的基础。

第二阶段集中训练

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第12张

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第13张

在第二阶段,团队转而使用常规文本图像数据集进行模型训练,放弃了ImageNet。他们着重于生成细节丰富的图像。此策略使模型能更集中地学习文本与图像间的关联,从而提升了图像生成的整体质量。

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第14张

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第15张

该技术有效消除了多余数据干扰,使得模型能更精确地依据文本信息生成高质量图像,大幅提升了图像生成的精确度和相关性。

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第16张

第三阶段比例调整

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第17张

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第18张

在第三阶段,团队对数据集的分配比例进行了细致调整。他们对多模态数据、纯文本数据以及文本图像数据的比例进行了重新设定。原本的7比3比10的分配,被修改为5比1比4。

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第19张

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第20张

此次调整通过适当减少文本与图像数据的比例,不仅维持了卓越的视觉内容创作水平,还提升了多模态信息的解析性能,达成了两者之间更为理想的协调状态。

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第21张

模型成果与行业反响

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第22张

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第23张

该模型在视觉理解与生成领域已达到与顶尖模型相当的水平。近期推出的开源推理模型R1,因其低廉的成本、免费开放以及卓越的表现,赢得了全球用户的青睐,并在业界引起了广泛关注。

该应用在美区苹果应用商店的免费应用排行榜上位居首位,超过了GPT和Meta的Threads。R1开源了六个精炼的小模型,并展现出优异的性能。此外,纯强化学习技术的应用显著增强了推理能力,在AIME 2024竞赛中,其成绩与OpenAI的o1-0912相当。这一成就引起了OpenAI、英伟达和Meta的关注。英伟达对其发展给予了认可,而Meta则组建了专门团队对Llama系列进行深入分析和优化。同时,Meta计划投入大量资金促进AI领域的发展,预计到年底,其算力将扩展至130万张显卡。

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第24张

DeepSeek新模型Janus-Pro-7B击败DALL-E 3和Stable Diffusion,AI界神话继续!你体验了吗?  第25张

这项革命性技术成果的问世,预计将如何及在多长时间范围内对人工智能领域的竞争格局带来根本性的变化?