一文带你了解OpenAI Sora

  • 电脑网络维修
  • 2024-11-15

最近AI圈最火的无疑是OpenAI在2月15日颁布的Sora。Sora可以依据文本生成一分钟的高清视频,生成的视频画质、延续性、光影等都令人蔚为大观,Sora无疑将视觉生成推到新的高度。本文将重点回答三个疑问:

一、背景

在国际外大少数AI厂商还在卷大言语模型之际,OpenAI悄无声息地颁布了文生视频(text-to-video,简称t2v)模型Sora [1],仅仅几个视频demo,就让整个AI圈子从惊讶到恐怖,惊讶于Sora生成的视频曾经抵达工业运行级别,恐怖于现有的t2v模型与Sora的差距居然如此之大。先看个Sora官网博客展现的demo,当你向Sora输入:“A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. She wears a black leather jacket, a long red dress, and black boots, and carries a black purse. She wears sunglasses and red lipstick. She walks confidently and casually. The street is damp and reflective, creating a mirror effect of the colorful lights. Many pedestrians walk about.”,Sora则依据该文本生成了长达1分钟的高清视频。

这个demo展现了Sora至少有以下打破:

那么OpenAI究竟用了什么魔法能让Sora如此冷艳?接上去咱们经过OpenAI给出的​ ​Sora技术报告​ ​来解答。PS:该技术报告十分粗陋,技术细节简直没有,只给了大抵的建模方法。

二、Sora原了解读

1. Sora要处置的义务

Sora要处置的义务其实十分好了解,就是给定一段文本,模型须要依据该文本生成相应的视频,繁难说就是text-to-video(t2v)。t2v自身并不是一个新疑问,很多厂商都在钻研t2v模型,只是的t2v模型生成的视频广泛品质较差,很难抵达工业运行级别。在Sora出现前大家的广泛认知是:t2v是一个很难的义务,工业级别t2v模型(或许说能真正适用的t2v模型)短期间内应该很难成功。但是,OpenAI又又又一次性打了一切人的脸,Sora的颁布象征着,这一天曾经来了。

2. Sora原理

假设用一句话来形容Sora训练建模环节,可以是:将原始视频经过一个视觉编码器(visual encoder)编码到隐空间(latent space)构成隐时空块(spacetime latent patches),这些隐时空块(联合text消息)经过transformer做diffusion [2, 3, 4]的训练和生成,将生成的隐时空块再经过视觉解码器(visual decoder)解码到像素空间(pixel space)。所以整个环节就是:visual encoding -> latent diffusion with diffusion transformer (DiT) [4] -> visual decoding。

(1) Visual Encoding

这一步其实很好了解,就是经过一个变分自编码器(VAE)[5]的encoder将高维的原始视频映射(紧缩)到较为低维的隐空间(留意:不只仅是空间上紧缩了,期间上也启动了紧缩),即获取该视频的低维隐空间特色(可以看成一个大的3D tensor),为了后续transformer计算繁难,将这个特色切成不堆叠的3D patches,再将这些patches拉平成一个token序列,这个token序列其实就是原始视频的表征了(即visual token序列)。

(2) Latent Diffusion with DiT

在获取视觉表征(上述visual token序列)后,Sora自创了DiT [4],经常使用transformer来做diffusion model的训练,经常使用transformer的好处在于可以输入恣意长度的token序列,这样就不再限度输入视频的尺寸和时长,并且模型很容易scale up(OpenAI表示这个我熟)。同时,由于Sora想处置t2v的疑问,所以Sora会将text的表征以某种方式condition到visual tokens上(Sora技术报告中未披露,但后文我会剖析最或许的成功方法)来解放生成。

在diffusion transformer的训练中,给定噪声输入(e.g., 噪声patches)并conditioned on text特色,模型被训练去预测原始视频的patches(预测环节又叫denoising环节,详细可以参考DDPM [2]中的训练算法),示用意如下:

(3) Visual Decoding

第(2)步中,diffusion transformer可以生成的其实不是像素空间的视频,而是隐空间的视频表征(denoised patches),这些patches reshape成视频3D特色再经过第(1)步中的VAE的decoder,就可以映射回像素空间,获取最后生成的视频。

3. Sora的关键性质

(1) Sora可以灵敏地驳回不同时长、分辨率和长宽比的视频

OpenAI发现之前的方法大多驳回固定尺寸的视频(比如4s的256x256视频)去训练模型,和事实中恣意长度、长宽比有较大gap,而驳回原始尺寸的视频训练模型成果更好。得益于Sora驳回的transformer结构,Sora可以输入恣意多个visual patches(初始为noise patches),即可生成恣意尺寸的视频。

(2) Sora有很强的言语了解才干

训练t2v模型须要少量带有文本标注的视频,OpenAI驳回DALL·E 3 [6] 中的re-captioning技术来处置。首先训练一个高品质的视频标注模型(captioner model),而后它为训练集中的一切视频生成文本字幕。另外,进一步应用GPT将视频标注模型生成的冗长文本裁减成更长的文本无利于还应用Sora准确遵照用户文本揭示生成高品质视频。

4.关键细节推测

Sora的技术报告没有任何细节,仅仅告知大家大抵的建模方法,但有一些细节的成功是可以推测or猜想的。

(1) visual encoder或许的结构:由于Sora在visual encoding时也紧缩了期间维度,所以Sora或许驳回从零开局训练的3D conv版的VAE。Sora这里没有像之前上班那样,繁难地驳回Stable Diffusion(SD) [3]预训练好的2D conv版的VAE。现成的SD的VAE encoder用来紧缩视频最大的疑问在于期间维度没有下采样,SD的VAE承当了将原本sparse的数据紧缩到compact的latent domain再启动diffusion环节,从而大幅度提高training和inference的效率。但是,间接运用2D VAE不足了在期间维度的紧缩,使得其对应的latent domain不够紧凑。实践上,这是一个历史遗留疑问,大局部钻研上班受算力等起因影响选用间接应用SD的预训练权重(Unet局部)、保管了2D VAE。

(2) visual encoding中视频的patches如何flatten成token序列?大略率自创DiT,先flatten这些patches,而后过一个linear层,将patches embed成tokens。

(3) diffusion中如何将text消息引入?大略率还是自创DiT和SD,在每个transformer block中,将visual tokens视为query,将text tokens作为key和value,启动cross attention,始终地conditioned on text tokens。

5. 尚未披露关键消息

(1)模型:模型的详细结构、模型的参数量、关键参数(patch size、token数目等)如何?

(2)数据:用了哪些数据?规模如何?

(3)资源:用了多少算力?训练了多久?

(4)如何处置高帧率、期间长、高分辨率的视频?目前干流的视频生成模型都是cascade结构,也就是先生成低分辨率、低帧率的视频,再始终地在期间和空间维度上upsample。不知道Sora能否是间接一次性性输入其展现的结果,假设是那样,那又会有多少token呢?(5)如何处置motion的疑问?目前的视频生成模型广泛生成的motion都不太好,最繁难的例子就是“人走路”,大局部模型不可生成连接的、长期间的、正当的人行走的环节。而Sora生成的结果在连接性、正当性上相比之前的模型都有着断代的上游。那究竟是什么促使了这样的结果呢?是模型尺寸的scale up吗?须要scale up到什么size?还是数据的搜集和荡涤呢?以及要做到什么水平呢?

6. Sora的运行

7. Sora的局限性

原本中提到:“Sora 目前作为模拟器(simulator)体现出许多局限性。例如,它不能准确地模拟许多基本相互作用的物理环节,例如玻璃破碎。其余交互环节(例如吃食物)也不总是能正确预测。咱们在登陆页面中罗列了模型的其余经常出现缺点形式,例如长期间样本中出现的不连接性或对象的凭空出现。”

总结一下关键是:

三、Sora究竟算不算环球模型?

最近,围绕“Sora是不是环球模型”以及“Sora懂疑问物理环球”等相关话题惹起了圈内热议。

英伟达初级钻研迷信家Jim Fan在X平台上称:“Sora is a learnable simulator, or "world model".”。而图灵奖得主Yann LeCun则表示:“The generation of mostly realistic-looking videos from prompts "does not" indicate that a system understands the physical world.”。

这里谈谈我的认识,仅供参考。

1.什么是环球模型(world model)[8]?

“The image of the world around us, which we carry in our head, is just a model. Nobody in his head imagines all the world, government or country. He has only selected concepts, and relationships between them, and uses those to represent the real system.” --Jay Wright Forrester, the father of system dynamics

上述引自系统能源学之父Jay Wright Forrester。我的了解是人类其实不可记下整个环球的一切内容,咱们的大脑仅仅是在有选用记忆一些概念和相互相关,应用这些,咱们可以表征和了解这个环球。这里,咱们的大脑其真实充任world model,即一个了解环球(物理)法令的模型。比如,当你看到玻璃杯从桌上掉上水泥地上,你知道接上去出现的事人造就是杯子碎了。

那么环球模型究竟是啥?

(以下是我团体对环球模型的了解,或许不够谨严,仅供参考)

我将环球模型分为狭义的和狭义的启动探讨。

【狭义环球模型】狭义的环球模型,其实就是任何能了解环球潜在物理法令的模型,比如可以预感未来结果的模型,继续以前面那个例子为例,假设一个模型能预测玻璃杯掉下后的形态,说明该模型具有这样的才干;再比如知道环球中实体或形象概念之间相互咨询的模型,比如一个模型知道玻璃杯的硬度低于水泥地会造成玻璃破碎。这些其真实我看来都是狭义上的环球模型。

【狭义环球模型】狭义的环球模型更强调节解物理环球的能源(dynamics)或许静止等物理法令的模型,了解过RL的好友们必定特意相熟这些。在RL中,一大分支便是model-based RL,这里的model,其实就是典型的狭义环球模型。在此模型中,给定某一时辰的形态s_t和该时辰做的举措a_t,模型可以预测出下一个时辰的形态s_t+1。所以说,狭义的环球模型其实是因果的。回到下面的例子,s_t可以是刚着落的杯子和洁净的水泥地,a_t则是自在落体这个举措,s_t+1则是水泥地上碎掉的杯子这样一个形态。

2.Sora算不算环球模型?

先给论断,我感觉Sora算狭义环球模型,同时也是隐式的狭义环球模型。

Sora的diffusion环节其实是在从噪声形态在text prompts的解放下,预测或许的结果(视频)。这个环节看似跟狭义环球模型没有相关,但其实可以这么了解:

规范的狭义环球模型的形态转移环节为:s_0 -> a_0 -> s_1 -> a_1 -> s_2 -> ... -> a_T-1 -> s_T。关于一个视频来说,每一帧都可以看做一个形态s,但是某一时辰举措其实很难形容,咱们很难用人造言语或许其余方式来形容相邻两帧之间出现了什么。但是咱们可以用人造言语形容视频在做什么,也就是s_0到s_T出现了什么,也就是将举措序列A={a_0, a_1, ..., a_T-1}一同打包表示成一句话或许一段话。在Sora中,text prompts可以看做成这样的举措序列A。而Sora了解环球的环节也和普通的狭义环球模型不太一样,s_0不再是第一帧,而是“混沌”形态(噪声),于是乎diffusion的环节可以了解为:s_0(噪声) -> A -> s_1 -> ... -> A -> s_T(明晰视频)。这其中,只管Sora并没有显式建模环球的dynamics,但其实无了解人造言语和视频内容之间的相关,算是一种狭义上的环球模型。

同时,回看Sora的运行可以发现,Sora其实可以拓展视频的!也就是说,换一个角度,给定一张起始图像(第一帧)和一个文本形容(形容蕴含生成视频内容),Sora就能生成出整个视频,那这个环节其实可以看做是在隐式的狭义环球模型建模:s_0(第一帧)-> A -> s_{1:T} (整个视频)。相当于是,给定了初始形态和接上去的一切举措A,Sora能预测出接上去的一切形态s_{1:T},所以Sora在我看来也是一个非典型的、隐式的狭义环球模型。

值得一提的是,OpenAI官网消息从未表示Sora是world model,而是强调它是world simulator,我也感觉world simulator形容比拟贴切。

四、Sora对行业的影响

五、Sora成功的关键(浅显了解,欢迎斧正和补充)

本篇仅仅为团体的思索和总结,如有不妥之处,欢迎斧正与交换。

【参考文献】

[1] OpenAI. "​ ​Video generation models as world simulators.​ ​" OpenAI Blog. 2024.

[2]Ho, Jonathan, Ajay Jain, and Pieter Abbeel. "Denoising diffusion probabilistic models."Advances in neural informaion processing systems33 (2020): 6840-6851.

[3] Rombach, Robin, et al. "High-resolution image synthesis with latent diffusion models."Proceedings of the IEEE/CVF conference on computer vision and pattern recognition. 2022.

[4]Peebles, William, and Saining Xie. "Scalable diffusion models with transformers."Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.

[5] Kingma, Diederik P., and Max Welling. "Auto-encoding variational bayes."arXiv preprint arXiv:1312.6114(2013).

[6]Betker, James, et al. "Improving image generation with better captions."Computer Science.pdf2.3 (2023): 8.

[7]Meng, Chenlin, et al. "Sdedit: Guided image synthesis and editing with stochastic differential equations."arXiv preprint arXiv:2108.01073(2021).

[8]Ha, David, and Jürgen Schmidhuber. "World models." arXiv preprint arXiv:1803.10122 (2018).

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5794.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号