欢迎莅临 IEEE HotICN 中文社区,IEEE HotICN 国际学术会议网站: https://hoticn.com, https://hoticn.cn。

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction

未分类 hcl

1. 研究动机与背景

传统的视觉 自回归(Autoregressive,AR)生成方法通常按光栅扫描(raster-scan)的顺序逐像素或逐 patch 预测下一个 token,而这种策略:

  • 忽略图像的二维结构;
  • 难以并行计算;
  • 在生成质量和生成速度上落后于扩散模型(如 Stable Diffusion / DiT)。

与此同时,自回归模型在自然语言处理中(例如 GPT 系列)展现出可扩展性(scaling laws)和零样本泛化能力等优势,但这些特性尚未在视觉生成领域得到充分利用。

本论文提出了一种全新视觉生成范式 Visual AutoRegressive Modeling(VAR),通过从粗到细的**尺度预测(next-scale prediction)**替代传统光栅预测,使自回归模型能在图像生成中同时兼顾质量和高效性。

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction插图

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction插图1

2. 核心方法:VAR(Visual AutoRegressive Modeling)

VAR 的核心思想是:

将图像生成任务看成一系列“从低分辨率向高分辨率的预测”,而不是一个长序列 token 的逐点生成功能。

2.1 从粗到细的 Next-Scale 预测

VAR 将图像划分成多个尺度(scale)表示:

  • 每个尺度对应图像的不同分辨率 token map;
  • 模型按照尺度顺序(例如 1×1 → 4×4 → 16×16 → 64×64)自回归地预测下一级更高分辨率的 token map;
  • 模型不再按像素顺序预测单个 token,而是按整个尺度 token map作为一个自回归单元。

如数学表达:p(r1,r2,,rK)=k=1Kp(rkr1,r2,,rk1),p(r_1, r_2, \ldots, r_K) = \prod_{k=1}^K p(r_k \mid r_1, r_2, \ldots, r_{k-1}),p(r1​,r2​,…,rK​)=k=1∏K​p(rk​∣r1​,r2​,…,rk−1​),

其中 rkr_krk​ 是第 k 个尺度的 token map。


2.2 多尺度编码(Multi-Scale Quantization)

为了支持上述机制,VAR 引入了一个多尺度量化编码模块:

  • 使用类似于 VQ-VAE 的机制,将原图编码成分层 token maps;
  • 不同尺度的 token maps 共享一个 codebook,使得跨尺度保持一致的 token vocabulary;
  • 编码器负责将图像映射为一系列尺度的 token map,而解码器负责将最后预测的 token maps 复原为图像。

这种分层表示方式有利于捕捉全局结构(在低尺度)和细节信息(在高尺度)之间的依赖关系,有效模拟自然图像的生成过程。

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction插图2

2.3 VAR Transformer 架构

在编码完成后,用一个自回归 Transformer 模型预测下一个尺度:

  • 输入:当前已有的低尺度 token maps;
  • 输出:下一级尺度所有 token;
  • 注意力机制设计保留尺度之间的自回归关系,同时允许同尺度内的并行预测;
  • 训练损失采用标准的交叉熵(cross-entropy)损失来最大化条件概率 p(rkr<k)p(r_k \mid r_{<k})p(rk​∣r<k​)。

这种结构区别于传统 AR 模型逐 token 顺序预测的粒度,使预测过程更高效、层次更清晰。

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction插图3

3. 与现有方法的比较

本论文从多个维度对 VAR 与其它生成模型进行了评估:

3.1 与传统 AR 模型对比

  • VAR 相比传统 AR baseline 在 ImageNet 256×256 数据集上有显著提升:
    • Fréchet Inception Distance (FID) 从 18.65 提升到 1.73;
    • Inception Score (IS) 从 80.4 提升到 350.2;
    • 推理速度提升约 20×。

这种提升表明采用尺度预测不仅保证了生成质量,还极大提高了效率。

3.2 与扩散 Transformer(如 DiT)对比

  • 在图像质量、推理速度、数据效率和可扩展性等多个指标上,VAR 都优于扩散式模型;
  • 扩散模型虽然生成质量高,但推理速度慢、需较多采样步骤,VAR 在这些方面展现更优平衡。

4. Scaling Laws 与泛化能力

4.1 Scaling Laws(扩展定律)

论文实验证明 VAR 在模型规模与 compute 资源变化时遵循幂律扩展定律(power-law scaling laws)

  • 随着模型参数量和训练数据规模的扩大,生成质量(如 FID/IS)呈现有规律的线性提升;
  • Pearson 相关系数近 −0.998,说明这种定律非常稳定。

这一点与大语言模型(LLMs)在 natural language 任务上的 scaling laws 极为相似,表明视觉自回归模型具有类似通用性和可扩展性。


4.2 零样本泛化能力(Zero-Shot Generalization)

VAR 在下列下游任务上均展示了无需额外训练的泛化能力:

  • 图像 in-painting(局部修复);
  • out-painting(边界扩展生成);
  • 图像 editing(编辑语义改变)等。

这说明 VAR 不仅适合纯图像生成,还可作为通用视觉生成模型的一部分,类似 LLM 在语言任务的通用性。


5. 数学与训练细节

  • 训练过程分为两个阶段:
    1. 多尺度编码器训练:学习从图像到尺度 token maps 的编码;
    2. VAR transformer 训练:基于 cross-entropy 最大化目标训练尺度预测变压器。
  • 注意力掩码被设计为确保尺度间自回归关系正确,即预测一个尺度时仅能看到更粗尺度及自身已生成的上下文。
  • 模型可用标准 GPU/分布式架构训练;论文也开源了代码与预训练模型。

6. 核心贡献与意义

该论文的主要贡献包括:

  1. 提出视觉自回归生成范式 VAR:通过“下一尺度预测”替代传统光栅扫描,提高了 AR 图像生成的效率与质量。
  2. 首次使 AR 模型在生成质量和效率上超越扩散 Transformer:在标准 benchmark 上表现优异。
  3. 验证视觉 AR 也具有 LLM 样的 scaling laws:为统一视觉与语言生成模型架构提供重要理论依据。
  4. 展示零样本泛化能力:增强了视觉生成模型的适用性。

Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction插图4
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction插图5
Visual Autoregressive Modeling: Scalable Image Generation via Next-Scale Prediction插图6

7. 局限性与未来方向

虽然 VAR 在多个指标中表现优越,但仍有一些需要进一步研究的问题:

  • 更高分辨率生成的计算开销:随着尺度层数增加,模型仍需要高效的并行机制和缓存策略(如后续研究提出的 AMS-KV / FastVAR)。
  • 与文本/语言联合生成的融合:目前主要用于图像生成,未来可与多模态模型融合。
  • 在极高分辨率与复杂结构图像上的扩展能力

总结:这篇论文通过一个全新且简单有效的“从粗到细尺度预测”架构,让视觉自回归模型首次在生成质量、速度和扩展性上超越扩散模型,展示出类似 LLM 的 scaling laws 和零样本泛化能力,具有重要的理论与实践意义

喜欢 (0)