本研究所提出Lumina-mGPT是一系列可在各种视觉和语言任务上进行自回归的多模态模型,特别是在从文本描述生成灵活的光学真实图像方面表现出色。与现有自回归图像生成方法不同,Lumina-mGPT采用一个预训练的解码器透传Transformer作为统一的框架来表示多模态标记序列。 作者的关键洞察是,利用多模态生成预训练(mGPT)的简单解码器透传Transformer,结合大量的交错的文本-图像序列的下一个标记预测目标,可以学习广泛的和普遍的多模态能力,从而启发光学级文本到图像生成的光栅化。 在这些预训练模型之上,作者提出了灵活渐进监督微调(FP-SFT)在高质量图像-文本对上进行微调,以充分利用它们在任何分辨率下对于高审美图像合成的潜力,同时保持它们的一般多模态能力。 此外,作者引入了全面监督微调(Omni-SFT),将Lumina-mGPT转化为能够无缝实现各种任务的通用基础模型。 最后,作者对基于扩散的方法和自回归的方法进行了直接的比较分析,并得出了差异和相似性的结论。 所有代码和预训练权重都将保存在作者的GitHub仓库:https://github.com/Alpha-VLLM/Lumina-mGPT。
1 Introduction
重要的模型,包括DALL-E 3(Betker等人,2023年)、Stable Diffusion 3(Esser等人,2024年)和SoRA(Brooks等人,2024年),在基于扩散式生成模型的连续潜在图像特征的实时成像和视频生成方面,表现出了优越的性能。相比之下,依靠"下一个 Token 预测"的自回归(AR)生成模型,已经在文本生成领域革命性地改变了 groundbreaking reasoning abilities,例如由 GPT-4(Achiam等人,2023年)和Gemini(团队,2023年)等模型,在离散 Token 表示方面展现出前所未有的推理能力。然而,基于向量化图像特征的 AR 生成模型,在实现光鲜且可控的图像生成方面,与基于扩散的对应模型相比,仍相差甚远。
虽然以前的自回归尝试,如 DALL-E(Ramesh等人,2021年)、CogView(Ding等人,2021年)、Parti(Yu等人,2022年)、OFA(Wang等人,2022年)、Unified-IO(Lu等人,2022年;2024a)、LlamaGen(Sun等人,2024年)和Chameleon(团队,2024年a),都广泛地研究了在向量化图像特征上的生成模型,遵循大型语言模型(LLM)的范例,但他们在文本到图像生成的结果上,要么是不满意的,要么只能生成学术基准如 ImageNet(Deng等人,2009年)的高质量样本。因此,作者总结了之前方法的一些局限性如下:
随机初始化的Transformer 虽然迁移学习(He等人,2016年;Radford等人,2021年;Lu等人,2019年)已经革命性地改变了视觉识别(He等人,2016年;Radford等人,2021年;Lu等人,2019年)和语言生成(Raffel等人,2020年;Radford等人,2018年;2019年;Brown等人,2020年)等关键领域,但流行的自回归图像生成方法DALL-E、Parti和LlamaGen 都采用了随机初始化的因果Transformer,这使得它们无法利用预训练的可传输表示和大规模数据集。因此,基于 AR 的方法通常在没有利用正确的大规模预训练的情况下,导致图像生成质量不佳且收敛缓慢。
全句式编码-解码架构 DALL·E 和 CogView 最初提出使用离散表示的解码器唯一的 Transformer 进行图像生成,其中一个 Transformer 充当文本编码器和图像标记解码器。然而,随后的方法,如 Parti 和 LlamaGen,采用注入冻结 T5 文本特征(Raffel 等,2020)的句式编码-解码架构,使用交叉关注或前缀填充方法,这是 Imagen(Saharia 等,2022)的研究结果所启发的。与扩展语言模型(Touvron 等,2023; Bai 等,2023; Bi 等,2024)的趋势相比,这种编码-解码架构因其解耦文本编码器和图像标记建模而显得笨重。这一设计极大地增加了自回归解码框架的复杂性,限制了图像生成的可扩展性,并阻碍了模型对其他模态和任务的一般化。
自然图像的有限解码分辨率和灵活性 自然图像存在于不同的分辨率和宽高比。先进的扩散模型(Chen 等,2024a,b; Esser 等,2024; 团队,2024b; Li 等,2024b; Zhuo 等,2024; Lu 等,2024b)可以在任意分辨率和扭曲的比率下成功生成各种光度逼真的图像。相比之下,目前的基于 AR 的方法(Yu 等,2022; 团队,2024a; Sun 等,2024)依赖中央裁剪低分辨率 512 × 512 图像,并使用预训练的 Vector-Quantized Variational Autoencoder (VQ-VAE)(Van Den Oord 等,2017; Razavi 等,2019; Esser 等,2021)将裁剪后的低分辨率图像转换为固定长度的离散标记序列。这种方法简化了自回归训练,但牺牲了图像质量和生成灵活性。
图像任务的可扩展性差 离散标记建模在各种任务和模式上具有统一的生成建模能力(Wang 等,2022; Lu 等,2022; 2024a)。然而,之前基于 AR 的图像生成方法(Ramesh 等,2021; Ding 等,2021; Yu 等,2022; Sun 等,2024)只能实现文本到图像的生成,而没有涉及与其他任务(如密集标注和可控制图像生成)的统一。这种缺乏任务扩展性的问题极大地限制了基于 AR 的图像生成模型应用于更广泛场景的可能性。
为应对上述挑战,作者提出了Lumina-mGPT,这是一个从有效的多模态生成式预训练(mGPT)启动的解码器唯一的 Transformer ,然后逐步在具有灵活性、高质量和高分辨率离散图像标记的监督下进行微调。该框架照亮了灵活的高分辨率照片真实感生成,并且可以以统一方式解决各种组件任务。作者在表1中提供了现有多模态自回归方法架构设计选择和模型能力的详细比较。Lumina-mGPT的关键特性如下:
(c) 有效多模态生成式预训练 与通常采用的方法不同,Lumina-mGPT 从有效的多模态生成式预训练表示启动。mGPT 是一个在大规模图像文本交错的语料库上使用简单“下标预测”损失训练的多模态自回归 Transformer 。作者的核心发现是,利用大规模多模态预训练的知识,mGPT 可以学习广泛的和通用的多模态表示。这作为了一个极好的起點,极大地简化了文本到图像生成的任务,加速了下游任务训练收敛,并统一了各种视觉语言任务。由于训练资源缺乏,这个 mGPT 表示直接从 Meta(团队,2024a) 发布的预训练 Chameleon 7B 和 30B 模型中获取。
(c) 简单解码器唯一的架构 由于 mGPT 预训练于多模态标记,因此它自然地在单个 Transformer 内学习视觉和语言表示。因此,只需要一个解码器唯一的因果 Transformer ,Lumina-mGPT 就可以同时处理文本编码和图像标记解码。通过与仅文本的 LLM 共享解码器唯一的框架,Lumina-mGPT 可以受益于 LLM 社区中已建立的理论和基础设施,例如可扩展性(Chowdhery等人,2022;Brown等人,2020)以及优化训练和推理过程的技术(Dao等人,2022;Dao,2024;Kwon等人,2023)。作者训练了一组最多具有300亿参数的 Lumina-mGPT,以提供灵活的效率和性能之间的权衡,并探索其多模态能力作为模型参数规模扩展的极限。
(d) 灵活高分辨率解码受益于大规模多模态交错数据集上的预训练和先进的架构设计,包括 Query 键正则化(QKNorm)(Henry等人,2020;Lu等人,2024;Zhuo等人,2024;团队,2024a)和旋转位置嵌入(RoPE)(Su等人,2024),mGPTs是灵活照片级图像生成的理想初始化。因此,作者提出灵活渐进监督微调(FP-SFT)以充分利用mGPT在灵活且照片级的高分辨率文本到图像生成的潜力。这种方法从低分辨率离散标记开始,并逐步过渡到高分辨率离散标记。与分辨率感知的提示相结合,这种从弱到强的SFT策略有效地提高了Lumina-mGPT的图像生成能力。为了使Lumina-GPT能够理解并生成图像的灵活分辨率和 aspect ratio,作者还提出_明确图像表示_(Uni-Rep),通过引入高度/宽度指示器和标记,消除了原始2D形状的扁平1D标记的歧义。
(d) 万能任务统一基于AR的方法相对基于扩散的方法的一个优势在于它们在单一框架内实现各种模态和任务之间统一序列建模的潜力(Chen等人,2022;Wang等人,2022;Lu等人,2022;Lu等人,2024a)。在本论文中,作者通过对初步实验的探索。具体而言,作者引入了万能监督微调(Omni-SFT),将各种任务(如多轮对话(Achiam等人,2023; 元,2024; Bai等人,2023; Bi等人,2024),视觉多轮理解(Liu等人,2023; Chen等人,2024c),密集标识(Carion等人,2020; Kirillov等人,2023; Yang等人,2024),灵活图像生成(Zhuo等人,2024; Ren等人,2024; Du等人,2024),以及空间条件图像生成(Zhang等人,2023; Ye等人,2023))作为统一的离散建模任务。然后作者对mGPT进行Omni-SFT,以通过自然语言接口实现万能任务统一。
作者的贡献如下:(1)作者发现具有多模态生成预训练的自回归 Transformer ,而不是从头训练,可以有效地作为照片级文本到图像生成的有效初始化。(2)在mGPT的基础上,作者提出两种新的微调策略,FP-SFT和Omni-SFT,以通过使用仅1000万高质量文本图像数据,充分发挥它们在弱到强范式中的潜力。(3)所得模型Lumina-mGPT不仅能够在任何分辨率下展示惊人的照片级文本到图像生成,而且在实现自回归和扩散方法之间的桥梁的同时,还可以通过语言接口无缝支持各种下游任务。
2 相关工作
多模态大型语言模型
最近的大语言模型(LLM) (Chowdhery等人,2022年;Touvron等人,2023年;Brown等人,2020年;Achiam等人,2023年;团队,2023年)展示了强大的遵从指令和推理能力,以及丰富的世界知识。为了将LLM的专业知识从文本领域扩展到多模态领域,如图像和视频,以前的工作(Liu等人,2023年;Lin等人,2023年;Maaz等人,2023年;Lin等人,2023b)通过编辑多模态指令调优数据集,将各种模态的预训练编码器与LLM对齐。尽管这些多模态大型语言模型(MLLM)已经展示出强大的视觉理解能力,但它们的多模态功能主要局限于感知视觉世界,例如视觉问答和图像描述等任务,而不是生成视觉输出。另一项研究Koh等人(2024年);Dong等人(2024年);Sun等人(2023年);Wu等人(2023年)提出将生成图像、视频和音频的能力添加到MLLM中。这些方法为生成增加额外的视觉token,并将这些生成token与预训练的生成器(如Stable Diffusion,Esser等人,2024年;Podell等人,2023年)的上下文信息对齐,如文本到图像生成。因此,生成能力严重依赖于外部专家生成器而不是MLLM本身,导致生成结果不一致且质量较差。为了避免这种情况,作者的模型旨在学习使用具有原生多模态能力的MLLM来理解和生成图像,借鉴Chameleon (团队,2024a) 混合式模态早期融合基础模型的思想。
文本到图像生成的任务目标是根据文本描述合成具有光感和多样性的图像。如今,由于其出色的性能,扩散模型在像素空间(Sahara等,2022年)或潜在空间(Podell等,2023年;Esser等,2024年;Pernias等,2024年;刘等,2024年)已经成为事实上的方法,尤其是在生成极其美学图像方面。在这类模型中,最近趋势是将扩散 Transformer 扩大(Chen等,2024b,a;Gao等,2024年;Esser等,2024年;刘等,2024年;团队等,2024年)表明文本和图像建模具有统一的架构。然而,现有的Dit仍然利用单独的语言模型,例如 CLIP(Radford等,2021年)或 T5(Raffel等,2020年),作为文本编码器。文本和图像表示之间的这种模式差距不仅导致不准确的生成,还阻碍了统一多模态泛化生成模型的开发。与扩散模型的主导地位相比,自回归图像生成的进展在过去几年中受到的关注较少。早期的工作(Ramesh等,2021年;Ding等,2021年)提出了一种两阶段的生成方法:首先,训练一个VQ-VAE(Van Den Oord等人,2017年);Esser等人(2021年)用于图像标记化和解标记化,然后使用自回归 Transformer 来模拟离散图像标记序列,类似于语言建模。Parti(Yu等人,2022年)将自回归 Transformer 扩展到200亿参数,展示了高保真图像生成的有前途的结果。LlamaGen(Sun等人,2024年)进一步改进了图像标记器,并在LLMs中集成了先进技术,与扩散对应项相比弥补了性能差距。与Parti和LlamaGen不同,LuminamiGPT提出了一种统一文本-图像序列的多模态生成方法,然后进行在高质量文本-图像对上的有监督微调,实现了由自回归模型生成的高度美学的图像生成。
3 Methodology
光是生成 Transformer (Lumina-mGPT)是一种仅解码器的Transformer,它通过多模态生成预训练(mGPT)初始化,并在源自各种任务的优质多模态标记下进行微调。基于健壮的mGPT表示和作者提出的具有非歧义图像表示的监督微调策略,Lumina-mGPT在照片现实主义图像生成和万能任务统一方面实现了卓越性能,同时具有图像分辨率和长宽比的高度灵活性。在本文的这一部分,作者首先介绍了mGPT,然后介绍了Lumina-mGPT的训练和推理细节。
Revisiting mGPT with Chameleon
mGPT代表着一类仅使用解码器 Transformer 架构的模型,这些模型在广泛的感知多模态标记序列上进行预训练。这些模型表现出卓越的原生多模态理解和生成能力,其潜力在于可以对各种模态和任务进行通用建模。作者使用最近的公开模型 Chameleon(团队,2024a)作为示例来阐述mGPT的设计选择和实现细节。
多模态标记化为了将文本和图像统一为一个多模态标记序列,首先需要将文本和图像标记化为离散的空间。特别是对于图像,标记分词的选择至关重要,因为它决定了生成质量的上限。具体来说,Chameleon 训练了一个新的二进制配对编码标记分词器,用于文本。对于图像,它采用了量化基础的标记分词方法,这在先前的研究中已经被使用(Van Den Oord等人,2017; Razavi等人,2019; Esser等人,2021; Yu等人,2022; Ramesh等人,2021),将连续图像块转换为离散标记,这些标记来自一个固定的词表,同时降低空间维度。量化后的图像标记然后被扩展成一个一维序列,并与其他各种标记序列(来自文本、图像等)连接,以形成统一的多模态标记序列。
解码器仅 Transformer Transformer不同于Unified-IO和Parti使用包含编码器-解码器的统一架构,以及预训练的编码器,mGPT 在转换文本和图像输入 into a unifed sequence of discrete tokens 之后,从头开始训练一个解码器自动回归 Transformer ,使得多模态生成建模更简单,更统一。mGPT 采用具有可伸缩性和通用性的标准密集 Transformer 架构,进行了少量适应,例如 RoPE(苏等人,2024)和 SwiGLU(Shazeer,2020)激活函数,并遵循 LLaMA 系列(Touvron等人,2023)。
然而,这种标准 Transformer 架构在扩展模型尺寸和多模态标记序列以及长度的上下文时,表现出训练不稳定的问题,这是 Chameleon(团队,2024a)和 Lumina-Next(Zhuo等人,2024)所观察到的。作者发现这种不稳定是因为 Transformer 模块中网络激活的不受控制的快速增长。因此,在每块 Transformer 模块中增加前向正则化(Pre-Norm)、后向正则化(Post-Norm)和 QK-Norm 来保留中间激活的幅度,并进一步稳定训练过程。
训练目标在训练过程中,mGPT 使用标准的下一标记预测目标来建模多模态序列的条件下概率 p(x_t|x_1,...,x_t-1)。此外,Chameleon 应用 z-损失(Chowdhery等人,2022)来稳定 7B 和 30B 模型的训练。在最初,作者低估了 z-损失的重要性,因为它在大多数与(图像文本)LLM 有关的示例中都不存在。然而,作者发现,如果没有这个项,对数项会升高,从而导致损失的偏离。另一方面, z-损失的存在,作者观察到对于 7B 和 30B 模型,推理时图像生成的最优温度要比 1B 模型低得多,因为对数项的幅度在更大模型时有显著降低。
限制尽管mGPT 像 Chameleon 一样展示出在同一个解码器仅 Transformer 中实现图像和文本理解的潜力,但他们与最先进的基于扩散的方法(Esser等人,2024;Chen等人,2024a,b;Li等人,2024b;团队,2024b;Zhuo等人,2024)在质量和分辨率灵活性方面仍然劣于现存的扩散框架。此外,Chameleon 的图像生成能力甚至不如开源版本的 Chameleon。此外,Chameleon 的能力仅限于视觉语言和仅文本的任务,不包括更广泛的视觉为主的任务。这包括经典的视觉识别任务,例如分割和深度预测,以及可控制生成的视觉生成任务,例如图像编辑。Lumina-mGPT 基于 Chameleon 构建,以解锁其全面的潜在能力,实现灵活的光学真实主义图像生成,并成为一个多功能的视觉专家。
Lumina-mGPT
基于预训练的多模态生成预训练(mGPT)表示,Lumina-mGPT实现了灵活的光弹性图像生成以及视觉和语言任务的一体化。为了充分利用mGPT的潜力,作者提出了一种明确的图像表示(Uni-Rep),灵活的有监督逐步微调(FP-SFT)和全能监督逐步微调(Omnis-SFT)。Uni-Rep消除了原1D图像标记的2D形状的歧义,为在灵活的分辨率和比例下进行图像理解和生成奠定了基础。FP-SFT逐步微调mGPT,以简单到复杂的方式生成更高分辨率的离散图像标记,同时结合多任务微调避免文本知识的灾难性遗忘。在FP-SFT过程中,Lumina-mGPT成为在灵活分辨率下生成真实图像的能力。基于FP-SFT阶段的功能图像生成能力,作者继续通过标记的图像和标注从密集标记、空间-条件图像生成和多转换数据集中将离散标记微调到Lumina-mGPT。所有微调阶段都采用下一个标记预测目标,共同建模多模态标记并集成z-loss,类似于预训练阶段。
3.2.1 Effective Intillation
大规模预训练和可扩展的模型架构已被广泛证实为通往高级智能的黄金道路。例如,像人脸变色龙(Team,2024a)这样的mGPT模型,已在大规模的交互式图像文本数据集上进行预训练,并开发出了对图象和文本都具有有效性和泛化性的表示,它们可以更好地作为灵活的光学真实图像生成的起点,而不是随机初始化或仅含语言的模型。此外,LaMA(Touvron等人,2023)架构,它采用了如 Query -键归一化(Henry等人,2020)和旋转位置编码(Su等人,2024)等特征,已经通过大量验证表现出力量和可扩展性(Touvron等人,2023; Meta,2024; Gao等人,2024)。从LaMA mGPT开始初始化,作者可以利用这些架构优势。因此,从mGPT开始初始化,使作者能够高效训练具有性能出色,参数范围从7B到30B的Lumina-mGPT模型,仅需要使用10M个高质量的图像文本数据点。
作者强调,仅预训练解码器的多模态生成预训练(mGPT)模型已在各种应用中被广泛探索和应用(Team,2024a; Wang等人,2022; Lu等人,2024a)。与这些现有方法不同,Lumina-mGPT的主要贡献在于展示了使用合适的mGPT表示而不是使用大语言模型(LLMs)或随机初始化,特别是对文本到图像生成的优势。作者认为这一发现可以激发图像生成的未来进步以及视觉通用模型的进步。
3.2.2 Supervised Finetuning for Lumina-mGPT
消除图像歧义的图像表示方法
现有的方法,如Chameleon(Team,2024a)和LlamGen(Sun et al,2024),将图像表示为1D扁平的2D离散图像编码序列。这种方法在固定图像分辨率时是合适的,但在支持图像分辨率可变的情况下(如Lumina-mGPT),该方法变得歧义。例如,具有512512,2561024和1024256分辨率的图像都可以编码成相同数量的标记,无法通过检查标记内容推理原始图像形状。这种歧义对图像感知和生成都具有重大挑战。
为解决这个问题,作者提出消除歧义的图像表示(Uni-Rep),通过在<开始>标记之后立即添加附加的尺寸/宽度指示标记,并在同一行的图像标记后插入<结束>标记。如图2所示,这种修改确保可以在不提供额外上下文或深入挖掘图像标记内容的情况下,准确解析图像的原始形状。这种增强为Lumina-mGPT在任意分辨率和比例下执行与图像相关的任务奠定了基础。
请注意,尽管高度/宽度指示符或<结束>标记中的任意一个都可以实现消除歧义,但作者仍然同时使用它们,因为它们各自具有不同的好处。当生成图像时,生成在图像标记之前的尺寸/宽度指示符预先确定图像的形状,以帮助Lumina-mGPT构建图像内容。另一方面,<结束>标记可以充当参照点,为1D标记序列提供额外的明确空间信息。
FP-SFT过程使预先训练的mGPT具备在渐进方式下生成具有柔性宽高比的高分辨率图像的能力。该过程分为三个阶段,其中宽度和高度的乘积分别接近,和。在每个阶段中,准备了一组具有相似面积但不同高度-宽度的候选分辨率,并将每个图像匹配到最合适的分辨率。在低分辨率阶段,较短的序列长度和由此产生的高训练吞吐量允许模型快速浏览大量数据,学习图像的一般组成和广泛的视觉概念。相反,在高分辨率阶段,模型预计应专注于学习只有高分辨率图像才具有的独特高频细微之处。得益于在高吞吐量预训练和低分辨率微调阶段构建的强大基础,低吞吐量的高分辨率微调阶段具有数据效率,从而增强了整个FP-SFT过程的效率。
经过精心挑选的高分辨率照片般真实图像文本对数据集被用于FP-SFT。此外,在训练过程中还融合了来自OpenHermess(Teknium,2023)的纯文本数据和来自Mini-Gemini(Li等人,2024a)的图像到文本数据,以防止灾难性遗忘。为了提供用户自然的方式来指定生成的图像的分辨率,作者开发了分辨率感知的提示(图2)。对于每个图像及其对应的描述,提示的结构如下:
全能监督微调(Omni-SFT)虽然Lumina-mGPT的主要目标是实现强大的照片般真实图像生成,但作者发现经过FP-SFT后得到的结果模型可以有效地转移到图像理解和生成任务的各种领域。因此,作者提出了Omni-SFT,这是使Lumina-mGPT成为视觉通才的初步探索。Omni-SFT的训练数据包括:
- MagicBrush(Zhang等人,2024)和SEED(Ge等人,2024)的单张和多轮语言引导图像编辑(仅涉及现实世界和多轮子集)。
- 包含表面法线估计(纽约大学v2 Silberman等人,2012)和ScanNet Dai等人(2017)的密集预测任务,以及深度估计(Kitti v2 Cabon等人,2020)和Sintel Butler等人(2012)的姿势估计、Semantic Segmentation数据(使用OneFormer Jain等人,2023)在Laion(Schuhmann等人,2022)的图像上的标注(以及地面数据ReF-COCO Kazemzadeh等人,2014)。
- 拥有表面法线、深度、姿势和分割等条件的内部空间条件图像生成数据。
- 从前面FP-SFT过程使用的数据中采样的一小部分数据。
训练设置 虽然SFT过程涉及到多个任务,但是所有任务都使用统一的Next-Token预测损失。Lumina-mGPT设计为对话模型,所有数据都组织为单一或多轮对话,损失仅应用到响应部分。所有实验中,使用AdamW(Loshchilov和Hutter,2017)优化器,权重衰减 = 0.1,且beta = (0.9, 0.95),学习率设置为2e-5。为了稳定训练,z-loss以0.01权重应用于7B和30B模型,附加30B模型dropout的概率为0.05。由于模型体积较大,使用PyTorch FSDP(Zhao等人,2023年)并在梯度预训练权重时使用。为了提高训练吞吐量,所有数据在训练前都进行预分词,并根据 Token 数量聚类,确保每个全局批次由具有相似长度数据组成。
3.2.3 Inference for Lumina-mGPT
Classifier-Free Guidance(CFG)(Ho 和 Salimans,2022;Sanchez等人,2023年)最初被提出,用于提高文本到图像扩散模型中生成样本的质量和文本对齐。作者在推理过程中将这种技术引入到自回归模型中。在生成图像标记时,CFG处理后的logits 定义为 , 其中 表示在完整上下文中的原logits; 表示仅与当前生成的图像中紧跟<开始of>标记的标记相关的上下文无关logits,且与任何先验上下文无关; 表示Classifier-Free Guidance的指导比率。为了使CFG正常工作,在训练期间,将<开始of>之前的环境以10%的概率随机丢弃。在实际应用中,可以使用KV缓存加速和的计算。如4.4节所示,CFG对Lumina-mGPT的生成性能产生了显著影响。
图像和文本的异构解码超参数在推理阶段,自回归模型的采样策略涉及许多超参数,这显著影响着采样结果。作者发现图像和文本解码的超参数在文本解码和离散图像编码之间有巨大差异。例如,k=5的设置在生成文本时表现良好。然而,在生成图像时,k的值应远大(例如2000),以避免重复和无意义的模式。因此,作者实现了一个状态意识的控制机制进行推理。具体而言,一组默认的超参数用于文本解码,当生成<开始of>标记时,超参数切换到适用于图像生成的优化设置。当生成标记后,参数将恢复到初始设置。
4 Experiments
Fundamental Photorealistic Text-to-Image Generation
首先,作者展示了Lumina-mGPT与FP-SFT相结合的文本到图像生成功能的基本能力。如图1所示,Lumina-mGPT可以在多种分辨率的各种图像上生成照片级的图像,实现了无需模型堆叠的第一种原语义1K自动回归生成(Yu等人,2022年;Saharia等人,2022年;Chang等人,2023年;Pernias等人,2024年)。在这些生成的图像中,尽管这些图像是通过在有限计算资源和文本图像对上进行微调得到的,但表现出强大的语义连贯性和复杂的视觉细节。
与当今最先进的基于AR的合成方法比较作者将Lumina-mGPT与LlamaGen(Sun等人,2024年)和Parti(Yu等人,2022年)进行了比较。LlamaGen在ImageNet上的FID得分上超过了最先进的扩散模型。与LlamaGen相比,Lumina-mGPT在图像质量方面可以实现更好的视觉效果,如图3中所示的文本到图像生成。请注意,Lumina-mGPT只需要10M的图像文本对,而LlamaGen在50M的廉价图像文本对和10M的内部审美图像文本对训练下学习。与Parti(一个具有200亿参数的基于AR的文本到图像模型)相比,Lumina-mGPT也证明了更好的视觉质量和美观度。然而,由于计算成本和训练数据集的巨大差异,Lumina-mGPT在遵循文本指示方面的性能明显不如Parti。此外,LlamaGen或Parti都不支持直接生成1K分辨率图像,但Lumina-mGPT实现了这一目标。LlamaGen支持的固定分辨率是 ,而Parti通过额外的超分辨率上采样方法生成1024 1024图像。
FP-SFT的有效性为了进一步验证FP-SFT的有效性,作者在图4中可视化了在不同的微调阶段生成的图像。随着图像分辨率的增加,作者观察到VQ-VAE引入的视觉缺陷逐步减少,并出现了各种细粒度的视觉细节。从这些说明中,作者可以得出结论:作者的FP-SFT可以逐渐释放出在mGPT中生成高质量图像的潜力。
Omnipotent Task Unification with Lumina-mGPT
通过在Fine-tuning SFT上执行Omni-SFT,Lumina-mGPT可以实现多种功能,可分类为仅只有文本的多轮对话、视觉多轮对话、多轮图像编辑、密集标记和条件图像合成。为了更直观地说明Lumina-mGPT如何将不同类型的下游任务无缝集成在其中(如图12至图16所示),以下进行说明。
首先,Lumina-mGPT凭借Chameleon以及作者的多任务微调,支持包括解决数学问题、编程和常识推理等通用文本任务,从而有效缓解灾难性遗忘。如图12所示,Lumina-mGPT正确地回答了“哪个更大?9.9还是9.11”的问题,这一问题曾使几乎所有的现有LLMs(包括GPT-4(Achiam等人,2023年)和Gemini(团队,2023年))感到困惑。
如图13所示,Lumina-mGPT还具有处理各种视觉语言任务的能力,包括图像描述生成、视觉问答和通用多轮多图像对话。作为视觉通才,融合经典视觉识别任务至模型至关重要。使用自然语言作为统一接口,Lumina-mGPT可以执行诸如图像分割、姿态估计、深度估计、表面法向量估计以及参考目标检测等多项计算机视觉任务。如图14和图15即为示例。
除了实现照片级图像生成外,文本到图像生成的模型上也应添加额外的控制力。如图15和图16所示,Lumina-mGPT支持各种空间控制,包括深度图、分割图、法线图和人类姿态等地图,以指导目标图像的生成。以上这些初步的示例展示了Lumina-mGPT可以有效地遵循各种指令,表明其在将各种挑战性的任务整合到一个框架中的潜力值得期待。
Comparison with Diffusion-based Approaches
在很长时间里,扩散模型在文本到图像生成领域占主导地位,而自回归模型则相对较少。尽管LlamaGen声称能够击败扩散模型,但他们的结果仅限于ImageNet基准,目前还没有直接比较这两种架构的文献。在本节中,作者旨在详细比较在同样的文本图像数据集上训练的自回归和扩散模型,重点关注图像质量、多样性、文本渲染和多语言能力。具体来说,作者分别采用Lumina-mGPT和Lumina-Next-SFT作为自回归和扩散模型代表。
扩散模型与自回归模型的相似处 给定相同的文本提示,扩散模型和自回归模型生成的照片般的图像具有相似的美学风格和细微的细节,如图5所示。这揭示了两种架构在提供相同的训练数据、训练预算和可比的模型大小时,都能够达到令人满意的文本到图像生成性能。自回归模型在视觉美观上与其他扩散模型相当,挑战了扩散模型在生成模型中更有效、更有前景的架构的观点。这一发现与Huh等人(2024年)提出的普适表示假设( Platonic representation hypothesis)一致,即神经网络在采用不同架构和目标进行训练时,正在收敛学习一个共享的表示空间。因此,这一假设强调了收集更多高质量数据和优化训练基础设施对于数据和模型扩展的重要性,以提高不受特定架构限制的整体模型性能。
扩散模型与自回归模型的差异 尽管有视觉上的相似之处,但扩散模型与自回归模型之间还是存在明显的差异。如图5所示,Lumina-mGPT在不同的随机种子下具有更高的多样性,而Lumina-Next-SFT生成的图像布局和纹理相同。这部分原因在于Lumina-mGPT中使用了高温和顶k值。然而,过度的多样性也使得作者的模型在稳定性上有所降低,更易产生视觉 artifacts,这一问题将在第4.7节中讨论。作者还比较了Lumina-mGPT和Lumina-Next-SFT之间在文本渲染和多语言理解能力上的差异。如图6所示,Lumina-mGPT的文本合成结果显著优于Lumina-Next-SFT,而Lumina-Next-SFT在生成任何完整的字符上都有困难。作者认为这一事实强调了mGPT的重要性,即该模型通过在相关过程中使用巨大的错位数据学习文本和图像之间的无缝多模态表示。