近期,中国联通发布了一则关键信息。该信息透露,公司自主研制的“联通元景文生图模型”已在国产昇腾AI软硬件平台上对外发布。此举显著推动了文生图领域国产化的发展。此外,这也显示了中国联通在人工智能自主创新领域又实现了重要突破。
模型架构的创新突破
联通元景的文生图模型在架构设计上表现出显著的创新特点。该模型整合了复合语言编码模块,并在SDXL架构下运行,对中文长篇文本、多属性对应关系以及特定词汇进行精确的语义分析。比如,针对像中文菜谱这样的特定语境词汇,该模型能够充分展现其优势。与SDXL的原始语言编码器相比,它不仅支持英文,还克服了许多限制。根据2023年的研究,这一创新显著提高了图像生成的质量。面对不断增长的文生图需求,该模型的突破对于满足多样化需求至关重要。
联通元景的文生图模型经过架构上的改进,提升了识别特定词汇的效能。比如,“仙鹤”与“吊车”在英文中均被译为“crane”,容易造成混淆。然而,该模型能够准确区分这两个词汇,并精确生成对应的优质图像。
算力集群上的实现与开源
联通在昇腾AI大规模算力集群上成功进行了中文原生文生图模型的训练与推断。该模型及代码已对外公开发布。这一成果的发布与我国AI发展同步,于2023年进行,有力促进了文生图领域国产化的发展。众多国内企业对国产文生图模型的需求不断增长,联通的这一举措具有深远影响。
模型一旦公开,便迅速吸引了众多企业和研究者的目光。他们积极投身于模型的优化与应用。此举体现了成果共享与共同进步的理念,预计将吸引更多人才加入文生图技术的研发领域。未来几年,这一趋势有望显著推动整个行业在国产化技术平台上的进步。
解决中文输入问题
联通元景的文生图模型对中文输入进行了显著改进。该模型基于SDXL语言编码器,而此编码器原本采用的是英文CLIP模型,它仅限于处理英文文本,且输入文本长度受限,最多只能包含77个token。联通元景在技术层面进行了创新,将英文CLIP模型更新为适用于中文的版本,并引入了复合语言编码架构。同时,模型还采用了encoder-decoder架构的语言模型,有效克服了文本长度限制的难题。
联通内部测试表明,经过优化调整,处理长篇中文文本的效率显著提升。尤其在众多国内文化领域的文生图创作场景中,对长文本输入的需求尤为突出。此次改进为创作者带来了更丰富的创作空间。
避免中文信息损失
该模型采纳了复合语言编码单元,从而精确捕捉了原始中文语义,有效防止了在应用英文文生图模型时,借助翻译插件可能导致的中文信息遗漏。在诸如创作传统场景文生图等具体应用场合,若跳过英文文生图模型,直接采用翻译插件,则存在产生语义偏差的风险。
国内某文化创意公司在测试其他文生图软件时,遭遇了由翻译插件故障引发的图片生成失误。联通元景的文生图技术成功解决了这一技术挑战,为文创界及多个领域带来了更精确的文生图解决方案。
模型适配优化
中国联通利用昇腾AI国产软硬件平台,确保了元景文生图模型在调整训练至推理阶段的全面兼容性。在调整训练环节,用户能够利用自定义数据集,实现从其他平台向昇腾平台的顺畅过渡。至于模型推理,其接口与Diffusers保持同步,操作简便,兼容单卡与多卡模式,尤其是单卡推理功能,更具备UNet Cache的加速功能。
该模型经过多轮的调整与改进,确保了其在各种硬件配置和需求环境中均能展现出优异的性能。例如,在一家小型文创工作室中,用户只需进行简单的操作,便能在现有硬件支持下,高效完成模型的微调训练和推理任务。
模型的应用领域与开源地址
元景文生图模型在联通的多个内外部项目中展现出优异表现,覆盖文创、服装、工业设计等多个行业。该模型为包括中华器灵、服装大模型在内的数十个案例提供了坚实的科技支持。在服装设计领域,它为设计师们注入了丰富的创意灵感;在文物活化领域,它使古老文物以崭新的面貌展现出独特的吸引力。
元景文生图模型的源代码已对外公布,可在GitHub、Hugging Face、魔搭、始智等知名平台找到。用户可轻松获取资源,并研究其在多个领域的应用前景。该模型在数字经济大会上荣获奖项,彰显了其创新性与实用价值。我们期望了解该模型可能对哪些行业带来显著影响或正面效应。欢迎您分享您的观点,留言、点赞或转发。