11月26日,快科技报道,英伟达推出的新型人工智能模型Fugatto备受瞩目。在人工智能界,新模型的问世通常预示着技术的革新,Fugatto在音频处理方面的卓越性能尤为引人注目。
模型基本情况
11月26日,信息表明Fugatto成为英伟达最新的人工智能模型。该模型基于生成式Transformer架构构建,其完整版包含25亿个参数。庞大的参数量暗示了该模型可能具备卓越的学习与处理能力。Fugatto是在由32个NVIDIAH100TensorCoreGPU构成的NVIDIADGX系统上接受训练的。高端硬件设备的支持显著提升了模型的性能。
模型训练的硬件环境对模型最终性能有着直接影响。在如此强大的硬件配置支持下,Fugatto模型在音频处理等任务上展现出卓越的性能。这一现象也反映了英伟达对Fugatto的高度重视和深切期望,他们为此投入了大量的硬件资源以促进其开发。
主要功能与角色定位
Fugatto是一款专门用于编辑和创作声音效果的软件,主要服务于音乐、影视以及视频游戏制作等领域的专业人士。英伟达将其誉为“声音的瑞士军刀”,这一称号凸显了它在多个产业中的独特地位。
NVIDIA应用音频研究经理RafaelValle指出,该研发项目旨在模仿人类对声音的理解与创造。在音乐领域,这项技术对音乐制作人来说价值巨大。他们可以利用Fugatto高效制作音乐原型,编辑歌曲创意,轻松尝试多样化的风格、声音和乐器,并添加效果以提高音频品质。
多种任务支持能力
Fugatto能够胜任多种音频生成与转换任务,它是首个引入紧急功能的基础生成式AI模型。这一特性得益于其多种训练能力的交互作用,以及灵活组合自由格式指令的能力。
该系统可依据文本内容生成相应的音效与音乐,例如,它可以将钢琴演奏转变为人的歌声,调整录音的口音与情感。广告代理商可借助此系统针对不同地区或情境开展广告活动,而视频游戏开发者则可利用它对预先录制的素材进行修改,或创建全新的素材。
模型的新颖性一
在推理阶段,应用ComposableART技术彰显了其创新之处。该技术能够将原本在训练过程中只能独立使用的指令进行组合。比如,用户可以指令模型模仿法国口音,并表达出悲伤情感的文本。
该技术打破了传统模型在单独指令学习处理方面的局限,为声音处理增添了更多的组合可能性。在多样化的指令组合中,用户能够获得期望的声音效果,显著增强了模型的灵活性和适用范围。
Fugatto具备指令间的插值功能,允许用户对文本指令进行精细调整,例如对重音的轻重或悲伤的程度进行精确控制。此外,该系统还拥有NVIDIA所描述的时间插值技术,能够实现声音随时间变化的动态效果。
模拟暴雨的穿行与雷声的逐步增强与减弱等场景得以生成。此功能使得构建复杂声音景观成为可能,并赋予用户在声音生成过程中的更大控制权。
模型的独特创造性
Fugatto与众多仅能复现训练数据的模型不同,它赋予了用户生成全新音景的权限。用户可以模拟雷雨逐渐平息,伴随鸟鸣声转变为黎明的景象。
Fugatto展现了其卓越的创造性功能。这一特点源于其背后模型强大的学习与生成能力。这种能力有望为音频领域开辟新的声音创作空间,拓展音频创作的边界。
Fugatto这类人工智能模型踏入音频行业,其发展趋势无疑将对传统音频制作产生深远影响。这一现象引发我们深思:在如此迅速变革的时代,传统音频制作者应如何自我提升,以避免被时代淘汰?期待各位读者点赞、分享,并在评论区分享你们的观点。