Scaling laws在视觉自回归模型上失效了文生图品质刷新纪录！谷歌联结MIT颁布Fluid

电脑网络维修
2024-11-15

文章链接： 缩放规律（Scaling laws） 是大言语模型（LLMs）史无前例成功的基础。实证钻研标明，在自回归模型中参与参数数量理论会清楚优化功能，并在人造言语处置（NLP）义务中发生新的才干。这一实证相关处罚了泛滥扩展言语模型的致力，造成许多高功能模型的开展。遭到这一成功的鼓舞，许多尝试将自回归模型运行并扩展到计算机视觉畛域，特意是在文本到图像生成等生成义务中。但是，这些模型生成的内容在功能和视觉品质上往往不迭其余生成模型，如分散模型，使得在视觉畛域能否实用相似的缩放规律仍不清楚。

本文提出了几个关于功能差距的假定。

为了钻研这些假定，对文本到图像生成背景下自回归模型的缩放行为启动了片面的实证钻研。并基于钻研提出了一个新的模型——，先来看看成果如何。

成果展现

总结速览

处置的疑问： 本文讨论了在视觉畛域，特意是文本生成图像义务中，扩展自回归模型并不像在大言语模型中那样有益的现象。详细关注了以下两个关键疑问：

提出的打算：

运行的技术：

到达的成果：

成功

本文的文本生成图像模型训练的全体框架十分便捷。首先，图像分词器将原始图像转换为tokens。而后，这些tokens被局部masked，接着训练一个Transformer模型，在文本的条件下重建被masked的tokens。下图3详细形容框架中的每个组件。

图像分词器 ：经常使用一个预训练的图像分词器将256×256的图像编码为token空间。该分词器可以是团圆的或延续的，以便为自回归模型成功不同的训练目的。试验中，团圆分词器是一个预训练于WebLI数据集的VQGAN模型。Muse的方法，将每张图像编码为16×16的团圆tokens，词汇表大小为8192。关于延续分词器驳回了Stable Diffusion模型，该模型将图像编码为32×32的延续tokens，每个token蕴含4个通道。为了与团圆分词器在序列长度上分歧，将每2×2块的延续tokens分组为一个token，最终序列长度为256，每个token蕴含16个通道。如下图4所示，延续分词器在重建品质上清楚优于团圆分词器。

文本编码器 ：原始文本（最大长度128）经过SentencePiece启动分词，并经过预训练的T5-XXL编码器启动嵌入，该编码器有47亿个参数并在训练时期被解冻。为了进一步对齐用于图像生成的文本embeddings，在T5嵌入的基础上参与了一个由六个可训练的Transformer模块组成的小型文本对齐器，来提取最终的文本示意。

Transformer ：在将原始图像编码为tokens序列后，经常使用一个规范的仅解码Transformer模型启动自回归生成。每个块由三个延续的层组成——自留意力、交叉留意力和MLP层。自留意力和MLP层仅运行于视觉tokens，而交叉留意力层则将视觉和文本tokens区分作为查问和键。如下图2所示，关于光栅顺序模型，Transformer经常使用自留意力块中的因果留意力基于先前的tokens预测下一个token，相似于GPT。在随机顺序模型中，未知的tokens由一个可学习的token masked，Transformer经常使用双向留意力来预测这些被masked的tokens，相似于BERT。

输入头 ：关于团圆tokens，遵照自回归模型的经常出现做法。输入经过一个线性层后，经常使用softmax转换为类别散布，这个线性层的权重与输入embedding层的权重共享。关于延续tokens，运行一个六层轻量级的MLP作为分散头来建模每个token的散布。该分散头的嵌入维度与骨干transformer相反。每个token的分散环节遵照。噪声调度为余弦状态，训练时为1000步；在推理时，从新采样为100步。

试验

数据集 ：经常使用WebLI（Web Language Image）数据集的一个子集作为训练集，该数据集由网络上的图像-文本对组成，并且这些对在图像品质和alt文本相关性上都有高分。自动状况下，图像启动中心裁剪并调整大小为256×256。

推理：遵照Imagen、Muse和Parti的做法，依据文本提醒生成图像，不启动拒绝采样。关于随机顺序模型，经常使用64步生成并依照余弦调度。为了进一步增强生成功能，运行了温度和无分类器疏导，这是经常出现的做法。

评价：对不同的自回归模型变体的扩展行为启动了定量和定性评价。定量评价包括在MS-COCO 2014训练集中的30K图像上计算验证损失，以及两个宽泛驳回的目的：MS-COCO上的零样本Frechet Inception Distance（FID）和GenEval分数。推理的超参数，如温度和无分类器疏导，针对每个评价目的启动优化。FID是在MS-COCO 2014训练集中的30K随机选取的图像-文本对上计算的，用于评价生成图像的保真度和多样性。GenEval基准绳权衡模型生成准确反映给定提醒的图像的才干。关于定性评价，从几个提醒中生成图像，并比拟生成图像的视觉品质。

扩展行为

钻研者们探求了自回归图像生成模型中的两个关键设计选用——token示意和生成顺序——如何影响功能和扩展行为。构建了具备这两种设计选用不同组合的模型，发生了四种不同的自回归图像生成模型变体。还讨论了这些模型在不同数据和评价目的上的泛化才干。本文的试验提醒了几个幽默的个性。

验证损失随模型规模线性扩展 。在下图5中，钻研者们调查了四种自回归变体在验证损失方面的扩展行为。验证损失和模型规模在对数空间中出现线性相关，模型规模从1.5亿参数参与到30亿参数。这与Henighan等人发现的幂律规律相分歧。这标明，参与模型规模所带来的训练损失改良能够很好地泛化到与训练数据不同的验证数据上。

经常使用延续tokens的随机顺序模型在评价分数上的扩展体现最佳 。下图6中剖析了四种自回归变体在FID和GenEval总体分数方面的扩展行为。验证损失的改良并不总是线性地转化为更好的评价目的，这象征着这些目的与模型规模之间没有严厉的幂律相关。例如，经常使用团圆tokens的光栅顺序模型（蓝线）在约10亿参数时FID和GenEval分数趋于颠簸。在四种变体中，经常使用延续tokens的随机顺序模型（即Fluid）在评价目的上显示出分歧的改良，参数规模扩展至30亿，体现最佳。

随机顺序模型的延续token随训练计算量扩展。下图7中绘制了不同大小的Fluid模型在总训练步数和计算量上的验证损失、FID和GenEval分数。随着训练步数和计算量的参与，验证损失和评价功能都体现出继续改良。但是，训练步数的收益在大概1M步时趋于饱和，这标明相比于训练较小模型更长时期，训练较大模型更少的步数在计算上愈加高效。这一行为与言语模型中的观察结果分歧，突显了在足够的训练条件下扩展模型大小的后劲。

验证损失和评价目的之间的强相关性。下图8绘制了不同大小的Fluid模型的FID和GenEval分数与验证损失的相关，并观察到两者之间存在强相关性。为了量化这一相关，经常使用线性回归拟合了数据点。FID和GenEval分数的皮尔逊相相关数区分为0.917和-0.931，标明在150M到3B的模型规榜样围内，验证损失与这些评价目的之间存在近乎线性的相关。训练了一个领有10.5B参数、批次大小为4096的模型，并训练1M步，取得了最先进的文本生成图像功能。

延续token和大模型对视觉品质至关关键。下图9比拟了四种自回归变体生成的图像的视觉品质。经常使用团圆token的模型生成的图像品质清楚不如经常使用延续token的模型。例如，团圆token模型生成的柯基犬的眼睛是不对称的，扩展模型规模不可处置这个疑问。这个局限性关键是由于团圆tokenizer引入了少量消息失落。例如，即使领有3B参数，经常使用团圆token的模型也不可生成准确的《蒙娜丽莎》，这是由于tokenizer的重构品质较差（见前面图4）。相比之下，经常使用延续token的模型能够生成品质更高的图像。

此外，较大的模型在视觉品质和图像-文本对齐方面体现出继续改良。例如，一个领有0.2B参数的随机顺序模型难以生成“一个愤怒的鸭子在健身房举重”，而领有3B参数的相反模型则可以成功生成对应的图像。这标明，处置延续token并参与模型规模关于在自回归图像生成模型中成功高品质视觉成果至关关键。

与之前系统的对比

下表1为Fluid模型（即延续随机顺序自回归模型）与上游的文本生成图像系统启动比拟。Fluid最小的模型，领有369M参数，在MS-COCO数据集上成功了零样本FID 7.23和GenEval总分0.62，与许多领有数十亿参数的最先进模型相匹敌（例如，Parti领有20B参数仅成功了7.23）。Fluid最大的模型，领有10.5B参数，进一步将MS-COCO数据集上的零样本FID提高到6.16，并将GenEval总分优化至0.692，在每个TPU上生成每张图像的速度为1.571秒（基于32 TPU v5，批次大小为2048）。

论断

本文对自回归模型在文本生成图像义务中的扩展行为启动了实证钻研。讨论了两个关键设计起因：随机顺序与光栅顺序，以及团圆token与延续token。结果标明，经常使用延续token的随机顺序模型在各种评价目的和视觉品质方面均体现出最佳的功能和扩展性。基于这些发现，将延续token的随机顺序模型（即Fluid）扩展至10.5B参数，取得了最先进的文本生成图像功能。宿愿这些发现和有前景的结果能为自回归模型在图像生成义务中的扩展性行为提供有价值的见地，并协助增加视觉模型与言语模型之间的功能差距。

原文链接:

关注微信

上一篇：一分钟搞定恣意数量视图到3D场景重建谷歌重磅颁布CAT3D

下一篇：港中文联手华为推出3D智能驾驶场景生成模型无需3D数据也能

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：https://duobeib.com/diannaowangluoweixiu/5927.html

Scaling laws在视觉自回归模型上失效了文生图品质刷新纪录！谷歌联结MIT颁布Fluid

成果展现

总结速览

成功

试验

扩展行为

与之前系统的对比

论断

猜你喜欢

热门标签

随便看看

TCP发送窗口接纳窗口以及其上班原理

I 如何发现 PostgreSQL 和中那些消耗 CPU

如何改良DevOps上班流

安保无大事安保防范从Nginx性能做起程序员安保规范

斯坦福学者提出Edu

热门资讯

阅读排行

架构下一代 Serverless

无敌到寂寞！Redis进军磁盘存储！

jQuery运行程序性能目的和调优

一道馄饨用5804公升水节水也有App

偏执的乔布斯回归一年苹果逾越微软

关注我们

Scaling laws在视觉自回归模型上失效了 文生图品质刷新纪录！ 谷歌联结MIT颁布Fluid

成果展现

总结速览

成功

试验

扩展行为

与之前系统的对比

论断

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号

Scaling laws在视觉自回归模型上失效了文生图品质刷新纪录！谷歌联结MIT颁布Fluid