GPT - 4o诞生
OpenAI近期发布了GPT-4o文生图模型,该模型的出现使得通过语音指令和文字描述生成图像成为可能。用户可在官方网站直接体验,其表现令人满意。这一消息发布后,吸引了众多AI领域从业者和设计师的注意,部分人甚至表示体验后对生活产生了新的思考。这一技术的创新性引发了公众的广泛期待。
生图功能亮点
OpenAI新推出的生图功能在多个维度表现出色。相较于其他表现良好的文生图模型,GPT-4o的表现更为突出。在常规生图任务中,GPT-4o展现出卓越的能力。在复杂指令驱动下的画面呈现方面,它同样表现出色。例如,在风格转换和逼真图像生成方面,GPT-4o具有独特的优势。
与其他模型对比
Midjourney等AI在文生图领域占有一席之地。与GPT-4o相较,二者差距不大,仅相当于80分与90分的差别。尽管从直观上看表现均佳,但若细致观察图片中的文字内容,OpenAI的表现尤为突出。GPT-4o在处理文字内容方面更为细腻,展现出显著优势。
复杂指令理解
GPT-4o的图像生成模型在文字与图像的解析上表现出色,仿佛具备了思维。面对复杂的指令,尤其是对长文本的解读,它能够准确把握意图,并完美地描绘出画面。在测试中,即便要求其绘制一个房间内无法直接看到的象,它也能以逼真的手法,利用光影效果,创造出一种看似透明的“空气象”,令人称奇。
自回归绘图方式
GPT-4o的图像生成过程是逐点自上而下绘制的,与AI写作时逐词输出的方式相似,这体现了一种自回归机制。值得关注的是,OpenAI最初因其GPT-3.5模型采用了自回归的Transformer技术而声名鹊起,而现在,在图像生成这一领域,它又通过自回归方法重新夺回了领先地位。该方法的图像生成时间相对较长,然而,为了确保图像的高品质,这一等待是合理的。
存在的不足
GPT-4o并非无懈可击。例如,在将特定文字转化为图片时,它存在缺陷,如处理某些地区文字时,生成的图片可能出现缺失部分的情况。此外,以往基于AI的研究经验,在AI模型能力迅速提升的背景下,显得尴尬,甚至毫无实用价值。这反映出我们积累的AI使用经验,其保质期未能与AI发展速度同步。
业界普遍关注GPT-4o在哪些行业可能产生显著影响,您可在评论区发表见解,同时请记得为文章点赞及转发。