论文链接:
git链接:
目前曾经在建设基础视频分散模型方面取得了清楚停顿。由于这些模型是经常使用大规模无监视数据启动训练的,因此将这些模型调整到特定的下游义务变得至关关键。经过监视微调来顺应这些模型须要搜集视频指标数据集,这是具备应战性和繁琐的。本文应用预训练的鼓励模型,经过对顶尖视觉别离模型的偏好启动学习,来顺应视频分散模型。这些模型蕴含关于生成的RGB像素的密集梯度消息,这关于在复杂的搜查空间(如视频)中启动高效学习至关关键。本文展现了从这些鼓励模型向视频分散模型反向流传梯度的结果,可以成功计算和采样的高效对齐。本文展现了在多种鼓励模型和视频分散模型上的结果,标明本文的方法在鼓励查问和计算方面比之前无梯度方法能够更高效地学习。
本文的方法,用于将视频分散模型调整为执行经过鼓励函数 R(.) 指定的特定义务。
VADER在去噪进度上十分灵敏,本文展现了与DDIM和EDM求解器的结果。为了防止适度优化,本文经常使用截断反向流传,其中梯度仅向后流传K步,其中K < T,T为总分散期间步数。经常使用较小的K值还可以缩小梯度向后流传的内存累赘,使训练愈加可行。本文在上方的算法1中提供了完整训练环节的伪代码。接上去,本文探讨用于对齐视频模型的鼓励函数类型。
本文经常使用多种类型的鼓励函数来对齐视频分散模型。以下是本文思考的不同类型的鼓励函数。
图像-文本相似度鼓励 分散模型生成的视频与用户提供的文本相对应。为确保视频与提供的文本对齐,本文可以定义一个鼓励,用于权衡生成的视频与提供的文本之间的相似性。为了应用盛行的大规模图像-文本模型如CLIP,本文可以采取以下方法。为了使整个视频能够很好地对齐,视频的每个独自帧很或许须要与高低文 c 具备高相似度。假定存在一个图像-高低文相似度模型gimg有:
缩小内存开支: 训练视频分散模型十分消耗内存,由于内存经常使用量与生成帧的数量成线性相关。只管VADER清楚提高了微调这些模型的样本效率,但却参与了内存的消耗。这是由于可微鼓励是在生成的帧上计算的,而这些帧是经过顺序去噪步骤生成的。
本文在2块A6000显卡(每块48GB VRAM)上启动试验,本文的模型平均须要12小时启动训练。但是,本文的代码库允许在单块16GB VRAM的GPU上启动训练。
这项上班专一于经过一系列针对图像和视频定制的鼓励模型,对各种条件视频分散模型启动微调,包括 VideoCrafter, Open-Sora, Stable Video Diffusion 和 ModelScope。这些鼓励模型包括图像美学模型,用于图像文本对齐的 HPSv2 和 PickScore,用于物体移除的 YOLOS,用于举措分类的 VideoMAE,以及用于时序分歧性的自监视损失 V-JEPA。本文的试验旨在回答以下疑问:
这个评价框架评价了VADER在从各种输入条件生成高品质、对齐的视频内容方面的成果。
基准方法。 本文将VADER与以下方法启动比拟:
鼓励模型。 本文经常使用以下鼓励模型来微调视频分散模型:
揭示数据集。 本文思考以下一组揭示数据集,用于对文本到视频和图像到视频分散模型启动鼓励微调:
大规模视频分散模型的训练由少数领有少量计算资源的实体成功;但是,这些模型的微调却由许多领有有限计算资源的实体成功。因此,领有既能优化样本效率又能优化计算效率的微调方法变得至关关键。
在本节中,将比拟VADER在样本和计算效率上与其余强化学习方法如DDPO和DPO的体现。在下图7中,可视化了训练环节中的鼓励曲线,图中上半局部的x轴是鼓励查问次数,下半局部的x轴是GPU小时数。从图中可以看出,与DDPO或DPO相比,VADER在样本和计算效率上清楚更高。这关键是由于未来自鼓励模型的密集梯度发送到分散模型的权重中,而基线方法只是反向流传标量反应。
微调的一个希冀属性是泛化才干,即在有限揭示集上微调的模型能够泛化到未见过的揭示上。在本节中,经过多个鼓励模型和基准模型宽泛评价这一属性。在训练文本到视频(T2V)模型时,在训练集中经常使用了HPSv2执行揭示,而在测试集中经常使用了优惠揭示。关于训练图像到视频(I2V)模型,在训练集中经常使用了拉布拉多犬类别,而马耳他犬类别则构成了本文的测试集。下表1展现了VADER的泛化才干。
钻研者们启动了一项钻研,经过Amazon Mechanical Turk评价人类偏好。测试包括VADER和ModelScope之间的并排比拟。为了测试从这两种模型生成的视频如何与它们的文本揭示对齐,向介入者展现了由VADER和基线方法生成的两个视频,并要求他们选用哪个视频更合乎给定的文本。为了评价视频品质,钻研者们要求介入者比拟以相反揭示生成的两个视频,一个来自VADER,另一个来自基线方法,并选择哪个视频的品质更高。每个比拟搜集了100个回复。下表2中的结果显示,相比基线方法,人们更偏好VADER。
本节将展现VADER生成的视频及其相应的基准模型。将在各种基础模型上,经过一切思考的鼓励函数启动宽泛的可视化展现。
HPS鼓励模型: 在下图3中,可视化了经常使用HPSv2.1和美学鼓励函数对VideoCrafter启动微调前后的结果,前三行展现了这些结果。在微调前,浣熊没有拿着雪球,狐狸也没有戴帽子,这与文本形容不分歧;但是,从VADER生成的视频中不会产生这些不分歧之处。此外,如图3的第三行所示,VADER成功地泛化到未见过的揭示,狗的爪子看起来不像左侧视频中的人类手那样。相似的改良也可以在经常使用Open-Sora V1.2和ModelScope生成的视频中观察到,如下图6的第二和第三行所示。
美学鼓励模型: 在上图3中,前三行可视化了经常使用美学鼓励函数和HPSv2.1模型组合微调ModelScope前后的结果。此外,还经过美学鼓励函数微调了ModelScope,并在上图6的最后一行展现了其生成的视频。观察到,美学微调使得生成的视频更具艺术感。
PickScore模型: 在上图3的最后三行,展现了经过PickScore微调的VideoCrafter生成的视频。VADER显示出比基准模型更好的文本到视频对齐成果。在最后一行,测试了两个模型对在训练时未见过的揭示的照应。此外,经过PickScore微调的Open-Sora生成的视频显示在上图6的第一行。
对象移除: 在下图5中,显示了经过经常使用基于YOLOS的对象移除鼓励函数微调后,由VideoCrafter生成的视频。在这个例子中,书籍是要移除的指标对象。这些视频展现了成功将书籍交流为其余物体,比如毯子或面包。
视频举措分类: 在下图8中,展现了ModelScope和VADER的视频生成结果。在这种状况下,经常使用举措分类指标对VADER启动微调,以合乎揭示中指定的举措。关于揭示中的“一团体在吃甜甜圈”,发现VADER使人脸愈加清楚,并在甜甜圈上参与了黑白的糖珠。之前的生成理论被失误分类为烘烤饼干,这是Kinetics数据集中的另一个举措类别。向甜甜圈参与色彩和糖珠使其与饼干更易于区分,从而取得更高的鼓励。
V-JEPA 鼓励模型: 在下图9中,展现了经过Stable Video Diffusion(SVD)参与视频长度的结果。为了在SVD上生生长距离视频,经常使用自回归推理,其中由SVD生成的最后一帧作为条件输入,用于生成下一组图像。启动了三步推理,因此将SVD的高低文长度裁减了三倍。但是,正如在白色边框中可以看到的那样,在启动一步推理后,SVD开局在预测中累积失误。这造成了泰迪熊的变形,或许影响了静止中的火箭。VADER经常使用V-JEPA指标的掩码编码,以强迫生成的视频自分歧性。如下图9所示,这成功处置了生成中的期间和空间差异疑问。
本文引见了VADER,这是一个经过鼓励梯度对预训练视频分散模型启动微调的样本和计算高效框架。本文应用在图像或视频上评价的各种鼓励函数来微调视频分散模型。此外,展现了本文的框架对条件有关,并且可以在文本到视频和图像到视频分散模型上都能上班。宿愿本文的上班能够惹起更多人对调整视频分散模型的兴味。
原文链接:
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/6198.html