Vit的高保真 理想汽车最新!DiVE 期间分歧的视频生成 分散模型

  • 电脑网络维修
  • 2024-11-15

原题目:DiVE: DiT-based Video Generation with Enhanced Control

论文链接:

名目链接:

代码链接:

作者单位:哈尔滨工业大学(深圳) 理想汽车 清华大学 Westlake University 新加坡国立大学

在智能驾驶场景中生成高保真、期间分歧性的视频面临着清楚的应战,例如在极其状况(corner cases)下的疑问操作(problematic maneuvers)。虽然最近提出了一些视频生成上班来处置上述疑问,例如基于 Diffusion Transformers(DiT)的模型,但依然不足专门探求多视角视频生成后劲的钻研。值得留意的是,本文提出了首个基于DiT的框架,专门设计用于生成与给定俯瞰图规划控制准确婚配的期间和多视角分歧性视频。详细而言,所提出的框架应用无参数的 spatial view-inflated attention 来保障跨视角分歧性,其中集成了 joint cross-attention modules 和ControlNet-Transformer 以进一步提高控制的精度。为了展现本文的长处,本文在nuScenes数据集上启动了宽泛的定性比拟,特意是在一些最具应战性的极其状况下。总的来说,本文提出的方法在艰巨条件下生生长期间、可控且高度分歧性视频方面被证实是有效的。

俯瞰视角(Bird’s-Eye-View, BEV)感知在智能驾驶中惹起了极大的关注,突显了其在3D指标检测等义务中的渺小后劲。最近的方法如StreamPETR 应用多视角视频启动训练,强调了宽泛且良好标注的数据集的必要性。但是,在各种条件下搜集和标注此类数据具备应战性且老本高昂。为了处置上述应战,生成模型的最新停顿标明,分解数据可以有效地提高指标检测和语义宰割等各种义务的性能。

因为时序数据在视频中的介入在关系感知义务中起着至关关键的作用,本文的重点转向生成高品质的实在感视频。成功事实环球的真切度须要高视觉品质、跨视角和期间分歧性以及准确的可控性。值得留意的是,最近方法的后劲遭到限度,要素包含低分辨率、固定纵横比以及物体外形和色彩的不分歧性。受Sora在生成高品质、期间分歧性视频义务中成功体现的启示,本文在上班中驳回 Diffusion Transformer (DiT) 启动可控的多视角视频生成。

本文提出的框架是首批在驾驶场景中经常使用 DiT 启动视频生成的上班之一,经过整合 BEV 规划和场景文本,成功了准确的内容控制。基于OpenSora架构,本文的方法嵌入了 joint cross-attention modules ,以治理来自俯瞰视角的场景文本和实例规划。裁减ControlNet-Transformer方法以顺应路线草图,本文经过无参数的 spatial view-inflated attention 确保多视角分歧性。为了允许多分辨率生成、更快的推理以及不同的视频长度,本文驳回了OpenSora的训练战略,并引入了一种陈腐的无分类器指点技术,以增强控制和视频品质。

图1. 本文提出的方法中每个独立组件的结构成功。

本文的模型总体架构如图1所示。驳回OpenSora 1.1提出的参数模型作为基线模型。为了成功对前景和背景消息的准确控制,本文将经过投影从3D几何数据中提取的规划条目和路线草图整合到规划条件视频生成环节中。本文提出的新模块和训练战略将在接上去的局部中区分引见。

Caption-Layout Joint Cross-Atttention. 依照MagicDrive的方法,本文经常使用交叉留意力机制来整合场景形容(scene captions)和规划条目(layout entries)。规划条目(即实例的详细消息,如2D坐标、朝向和ID)经过傅里叶编码后兼并为一个一致的嵌入。实例题目则经常使用预训练的CLIP模型启动编码。这些嵌入被衔接并经过一个多层感知器(MLP)处置,生成最终的规划嵌入,该嵌入与场景形容嵌入一同作为交叉留意力机制的条件。

ControlNet-Transformer 。深化细节,本文引入了ControlNet-Transformer,以确保对路线草图控制的准确性,灵感来自PixArt-δ。实践上,一个预训练的变分自编码器(VAE)从路线草图中提取潜在特色,这些特色而后经过 3D patch embedder 处置,以确保与本文主网络的分歧性。为了参数化本文提到的设计,本文将13个重复块(duplicated block)与DiT架构的前13个基础块集成。每个重复块结合了路线草图特色和基础块输入,经常使用空间自留意力来缩小计算开支。

可变分辨率和帧长度。 遵照OpenSora的做法,本文驳回了Bucket战略,以确保每个批次中的视频具备分歧的分辨率和帧长度。

Rectified Flow 。受OpenSora 1.2的启示,本文在前期训练阶段用校对流代替了IDDPM,以提高稳固性并缩小推理步骤。校对流是一种基于 ODE 的生成模型,其定义了数据和正态散布之间的前向环节如下:

损失仅在未掩码的帧上计算。在推理环节中,视频以自回归模式生成,前一个片段的最后k帧作为下一个片段的条件。

图2. 本文的模型与MagicDrive生成的多视角视频的定性比拟。

图3. 场景编辑的经常使用案例。 表1. 与MagicDrive的定量比拟。DTC、CTC和IQ区分代表DINO期间分歧性、CLIP期间分歧性和图像品质。最佳体现以粗体显示。

本文提出了首个针对驾驶场景的基于DiT的可控多视角视频生成模型。经过整合 ControlNet-Transformer 和 joint cross-attention ,成功对 BEV 规划的准确控制。Spatial view-inflated attention 结合片面的训练和推理战略,确保了高品质和分歧性的视频生成。与MagicDrive的比拟和各种可视化进一步展现了该模型在生成视频中的出色控制和分歧性。

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/9176.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号