速度优化10.6倍 DiT通用 史上首个实时AI视频生成技术

  • 电脑网络维修
  • 2024-11-15

实时 AI 视频生成来了!

本周三,新加坡国立大学尤洋团队提出了业内第一种可以实时输入的,基于 DiT 的视频生成方法。

该技术名为 Pyramid Attention Broadcast (PAB)。经过缩小冗余留意力计算,PAB 成功了高达 21.6 FPS 的帧率和 10.6 倍的减速,同时不会就义包含 Open-Sora、Open-Sora-Plan 和 Latte 在内的盛行基于 DiT 的视频生成模型的品质。值得留意的是,作为一种不须要训练的方法,PAB 可认为任何未来基于 DiT 的视频生成模型提供减速,让其具有实时生成的才干。

自往年起,OpenAI 的 Sora 和其余基于 DiT 的视频生成模型惹起了 AI 畛域的又一波浪潮。但是与图像生成相比,人们关于视频生成的关注点基本都在于品质,很少有钻研专一于探求如何减速 DiT 模型推理。减速视频生成模型的推理关于生成式 AI 运行来说曾经是事不宜迟。

PAB 方法的出现,为咱们关上了一条路。

原始方法与 PAB 视频生成速度的比拟。作者在 Open-Sora 上测试了 5 个 4s(192 帧)480p 分辨率的视频。

GitHub 链接:

金字塔式留意力广播

近期,Sora 和其余基于 DiT 的视频生成模型惹起了宽泛关注。但是,与图像生成相比,很少有钻研专一于减速基于 DiT 的视频生成模型的推理。此外,生成单个视频的推理老本或者很高。

图 1:分散步骤和先前分散步骤之间的留意力输入差异,经常使用均方误差 (MSE) 对差异启动量化。

成功

这项钻研提醒了视频分散 transformer 中留意力机制的两个主要观察结果:

首先,不同期间步骤的留意力差异出现出 U 形形式,在最后和最后 15% 的步骤中出现清楚变动,而两边 70% 的步骤则十分稳固,差异很小。

其次,在稳固的两边段内,留意力类型之间存在差异:空间留意力变动最大,触及边缘、纹理等高频元素;期间留意力体现出与视频中的静止和灵活关系的中频变动;跨模态留意力是最稳固的,将文本与视频内容咨询起来,相似于反映文本语义的低频信号。

基于此,钻研团队提出金字塔式留意力广播来缩小不用要的留意力计算。在两边局部,留意力体现出庞大的差异,该钻研将一个分散步骤的留意力输入广播到几个后续步骤,从而清楚降落计算老本。

此外,为了更有效的计算和最小的品质损失,作者依据不同留意力的稳固性和差同性设置了不同的广播范围。即使没有前期训练,这种便捷而有效的战略也能成功高达 35% 的减速,同时生成内容的品质损失可以疏忽不计。

图 2:该钻研提出了金字塔式留意力广播,其中依据留意力差异为三个留意力设置不同的广播范围。留意力变动越小,广播范围越广。在运转时,该方法将留意力结果广播到接上去的几个步骤,以防止冗余的留意力计算。x_t 指的是期间步 t 的特色。

并行

下图 3 为本文方法与原始灵活序列并行(Dynamic Sequence Paralle, DSP)之间的比拟。当期间留意力获取流传时,则可以防止一切通讯。

为了进一步优化视频生成速度,本文基于 DSP 来改良序列并行。序列并行将视频宰割为跨多个 GPU 的不同局部,从而缩小了每个 GPU 的上班负载并降落了生成提前。不过,DSP 引入了少量的通讯开支,须要为期间留意力预备两个 All to All 通讯。

经过在 PAB 中流传期间留意力,本文不再须要对期间留意力启动计算,由此缩小了通讯。相应地,通讯开支大幅降落了 50% 以上,使得实时视频生成可以启动更高效的散布式推理。

评价结果

减速

下图为不同模型在 8 块英伟达 H100 GPU 上生成单个视频时,测量获取的 PAB 总提前。当经常使用单块 GPU 时,作者成功了 1.26 至 1.32 倍的减速,并在不同的调度器中坚持稳固。

当裁减到多块 GPU 时,本文方法成功了 10.6 倍的减速,并得益于高效的序列并行改良成功了与 GPU 数量之间的近线性裁减。

定性结果

以下三个视频区分为 Open-Sora、Open-Sora-Plan 和 Latte 三个不同的模型经常使用原始方法与本文方法的成果对比。可以看到,本文方法在不同的 GPU 数量下均成功了不同水平的 FPS 减速。

定量结果

下表为 Open-Sora、Open-Sora-Plan 和 Latte 三个模型的 LPIPS(学习感知图像块相似度)和 SSIM(结构相似度)目的结果。

更多技术细节和评价结果可以检查行将推出的论文。

名目地址:

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5974.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号