1. 研究动机与背景

传统的视觉 自回归（Autoregressive，AR）生成方法通常按光栅扫描（raster-scan）的顺序逐像素或逐 patch 预测下一个 token，而这种策略：

与此同时，自回归模型在自然语言处理中（例如 GPT 系列）展现出可扩展性（scaling laws）和零样本泛化能力等优势，但这些特性尚未在视觉生成领域得到充分利用。

本论文提出了一种全新视觉生成范式 Visual AutoRegressive Modeling（VAR），通过从粗到细的**尺度预测（next-scale prediction）**替代传统光栅预测，使自回归模型能在图像生成中同时兼顾质量和高效性。

2. 核心方法：VAR（Visual AutoRegressive Modeling）

VAR 的核心思想是：

将图像生成任务看成一系列“从低分辨率向高分辨率的预测”，而不是一个长序列 token 的逐点生成功能。

VAR 将图像划分成多个尺度（scale）表示：

如数学表达： $p(r_1, r_2, \ldots, r_K) = \prod_{k=1}^K p(r_k \mid r_1, r_2, \ldots, r_{k-1}),$ p(r1,r2,…,rK)=k=1∏Kp(rk∣r1,r2,…,rk−1),

其中 $r_k$ rk 是第 k 个尺度的 token map。

为了支持上述机制，VAR 引入了一个多尺度量化编码模块：

这种分层表示方式有利于捕捉全局结构（在低尺度）和细节信息（在高尺度）之间的依赖关系，有效模拟自然图像的生成过程。

在编码完成后，用一个自回归 Transformer 模型预测下一个尺度：

这种结构区别于传统 AR 模型逐 token 顺序预测的粒度，使预测过程更高效、层次更清晰。

本论文从多个维度对 VAR 与其它生成模型进行了评估：

VAR 相比传统 AR baseline 在 ImageNet 256×256 数据集上有显著提升：
- Fréchet Inception Distance (FID) 从 18.65 提升到 1.73；
- Inception Score (IS) 从 80.4 提升到 350.2；
- 推理速度提升约 20×。

这种提升表明采用尺度预测不仅保证了生成质量，还极大提高了效率。

论文实验证明 VAR 在模型规模与 compute 资源变化时遵循幂律扩展定律（power-law scaling laws）：

这一点与大语言模型（LLMs）在 natural language 任务上的 scaling laws 极为相似，表明视觉自回归模型具有类似通用性和可扩展性。

VAR 在下列下游任务上均展示了无需额外训练的泛化能力：

这说明 VAR 不仅适合纯图像生成，还可作为通用视觉生成模型的一部分，类似 LLM 在语言任务的通用性。

训练过程分为两个阶段：
1. 多尺度编码器训练：学习从图像到尺度 token maps 的编码；
2. VAR transformer 训练：基于 cross-entropy 最大化目标训练尺度预测变压器。
注意力掩码被设计为确保尺度间自回归关系正确，即预测一个尺度时仅能看到更粗尺度及自身已生成的上下文。
模型可用标准 GPU/分布式架构训练；论文也开源了代码与预训练模型。

该论文的主要贡献包括：

虽然 VAR 在多个指标中表现优越，但仍有一些需要进一步研究的问题：

总结：这篇论文通过一个全新且简单有效的“从粗到细尺度预测”架构，让视觉自回归模型首次在生成质量、速度和扩展性上超越扩散模型，展示出类似 LLM 的 scaling laws 和零样本泛化能力，具有重要的理论与实践意义