生成式视频的下一步是什么

电脑网络维修
2024-11-15

上个月，当OpenAI发布其新的生成式视频模型Sora时，约请了一些电影制造人来试用。本周，该公司发布了却果：七部超理想的短片，毫无不懂地标明了生成式视频的未来行将迅速来到。

首批能将文本转化为视频的模型出如今2022年末，来自Meta、谷歌和视频技术初创公司Runway等公司。这是一个很棒的技巧，但结果是颗粒状、出现缺点，并且只要几秒钟长。

快进18个月，Sora的高清、真切的最佳输入令人震撼，一些激动的观察者甚至预言好莱坞的死亡。Runway的最新模型可以生成与大片动画上班室相媲美的短片。Midjourney和Stability AI，两家最受欢迎的文本转图像模型面前的公司，如今也在努力于视频畛域的研发。

许多公司正在竞相应用这些打破来展开门务。大少数公司在探求环节中才逐渐明白这种业务是什么。“当经常使用这些工具时，我经常会兴奋地尖叫‘哇，这太酷了’，”Vyond的首席执行官Gary Lipkowitz说道，Vyond是一家提供点对点，点击平台来制造短动画视频的公司。“然而你如何在上班中经常使用它呢？”

无论对这个疑问的答案是什么，它都或许彻底改动各种业务，并改动从动画制造人到广告商等许多专业人士的角色。关于滥用的担忧也在增长。宽泛经常使用生成虚伪视频将使网络充满着宣传和非被迫色情，这比以往任何时刻都更容易。咱们可以看到这种状况正在出现。疑问是，没有人有一个好的处置方案。

当咱们继续探求未来的前景——无论是好是坏——以下是四个须要思考的事情。咱们还精选了一些制造人经常使用这项技术制造的最佳视频，其中包含洛杉矶制造公司Myles的试验性短片《Somme Requiem》的独家展现。继续阅读，了解人工自动电影制造的开展方向。

1. Sora只是一个开局

目前，OpenAI 的 Sora 在视频生成畛域遥遥上游于竞争对手。但其余公司也在努力赶上。随着更多公司完善其技术并开局推出 Sora 的竞争对手，未来几个月市场将变得极端拥堵。

总部位于英国的初创公司 Haiper 本月刚刚走出隐身形态。它由前谷歌 DeepMind 和 TikTok 的钻研人员在 2021 年创立，他们想要钻研称为神经辐射场或 NeRF 的技术，该技术可以将 2D 图像转化为 3D 虚构环境。他们以为，将快照转化为用户可以进入的场景的工具关于制造视频游戏将会十分有用。

然而，六个月前，Haiper 将重心从虚构环境转移到了视频剪辑上，调整其技术以顺应首席执行官 Yishu Miao 以为将比游戏市场更大的市场。“咱们看法到视频生成是最佳方向，”Miao 示意。“对此将会有超高的需求。”

，时长01:21

“Air Head” is a short film made by Shy Kids, a pop band and filmmaking collective based in Toronto, using Sora.

与 OpenAI 的 Sora 相似，Haiper的生成式视频技术经常使用分散模型来治理视觉成果，并经常使用transformer（相似于 GPT-4 这样的大型言语模型中的组件，使它们在预测接上去会出现什么方面体现杰出）来治理帧之间的分歧性。“视频是数据序列，而transformer 是学习序列的最佳模型，”Miao 示意。

分歧性是生成式视频的一个渺小应战，也是现有工具一次性仅生成大批视频的关键要素。用于视频生成的transformer 可以提高剪辑的品质和长度。不利之处在于，transformer 会假造物品，或许发生幻觉。在文本中，这并不总是显著的。在视频中，这或许造成，比如一个具备多个头的人。坚持transformer 在正确轨道上须要少量的训练数据和成堆的计算机。

这就是为什么由前微软钻研人员创立的 Irreverent Labs 采取了一种不同的方法。与 Haiper 相似，Irreverent Labs 最后是为游戏生成环境，而后转向片面的视频生成。但该公司不想经过复制 OpenAI 和其余公司的做法来同流合污。“由于那样的话，这就是一场计算机的抗争，一个齐全的 GPU 抗争，”Irreverent 的联结开创人兼首席技术官 David Raskino 示意。“在这种状况下，只要一个赢家，他衣着皮夹克。”（他指的是价值万亿美元的芯片巨头 Nvidia 的 CEO Jensen Huang。）

与经常使用transformer 不同，Irreverent 的技术将分散模型与依据知识物理学（例如球如何弹跳或水如何溅在地板上）来预测下一帧内容的模型相结合。Raskino 示意，这种方法既降落了训练老本，又缩小了幻觉的数量。他说，该模型依然会发生缺点，但它们是物理学的歪曲（比如弹跳的球不遵照平滑曲线），这些疑问有已知的数学修复方法可以运行到生成的视频中。

哪种方法会耐久还有待观察。Miao将当天的技术与 GPT-2 时代的大型言语模型启动了比拟。五年前，OpenAI 的打破性早期模型让人们惊叹，由于它展现了或许性。然而，该技术须要几年时期才干成为一个改动游戏规定的技术。

Miao示意，视频也是如此：“咱们都处于山脚下。”

2.人们会如何应用生成式视频

视频是互联网的关键媒介。YouTube、TikTok、资讯片、广告：在已有视频的中央，估量会看到分解视频的出现。

营销行业是最热衷于驳回生成技术的行业之一。依据 Adobe 最近在美国启动的一项考查，三分之二的营销专业人士在上班中尝试过生成式人工自动，其中超越一半的人示意曾经经常使用该技术制造过图像。

生成式视频是下一个指标。一些营销公司曾经发布了短片，以展现技术的后劲。最新的例子是由 Myles 制造的时长 2.5 分钟的《Somme Requiem》。您可以在 MIT Technology Review 的独家报道中观看该影片。

“Somme Requiem” is a short film made by Los Angeles production company Myles. Every shot was generated using Runway's Gen 2 model. The clips were then edited together by a team of video editors at Myles.

《Somme Requiem》形容了1914年第一次性环球大战时期的圣诞节休战时期被困在雪中的战士。这部电影由数十个不同的镜头组成，这些镜头是经常使用Runway的生成式视频模型制造的，而后由Myles的人类视频编辑人员启动拼接、色调校对，并配以音乐。“未来的叙事模式将是混合上班流程，”开创人兼首席执行官Josh Kahn说道。

Kahn选用战时背景是为了标明自己的观念。他指出，苹果电视+系列电影《Masters of the Air》耗资2.5亿美元，讲述的是一群二战航行员的故事。彼得·杰克逊的第一次性环球大战纪录片《They Shall Not Grow Old》的团队花了四年时期筹划和修复了100多小时的档案影片。“大少数电影制造人只能梦想无时机在这个类型中讲述一个故事，” Kahn说。

“独立电影制造有点儿式微，”他补充道。“我以为这将会引发令人难以置信的复苏。”

Raskino也宿愿如此。“恐惧电影类型是人们测试新事物的中央，尝试新事物直到它们被打破，”他说。“我以为咱们将会看到由四团体在某个公开室里经常使用人工自动创作的一部惊动的恐惧电影。”

那么，生成式视频会捣毁好莱坞吗？还没有。《Somme Requiem》中的背景镜头——空无一人的树林，荒芜的军营——看起来很棒。但其中的人物依然遭到了完整不全的手指和歪曲的面容的困扰，这是技术的标记。生成式视频最长于的是广角全景或延时特写，这发明了一种怪异的气氛，但简直没有执行。假设《Somme Requiem》再长一点，它就会变得有趣。

然而，电影中经常出现场景设定镜头。大少数镜头只要几秒钟长，但拍摄起来或许须要几小时。Raskino倡导，生成式视频模型很快就可以用于以极低的老本制造这些两边镜头。这也可以在制造的前期阶段实时成功，而不须要从新拍摄。

Gen Digital 的首席技术官Michal Pechoucek，该公司是一家网络安保巨头，旗下领有包含Norton和Avast在内的一系列杀毒软件品牌，示意赞同。“我以为技术的开展方向就是这样，”他说。“咱们将看到许多不同的模型，每个模型专门针对电影制造的某个畛域启动训练。这些只是由有才气的视频制造团队经常使用的工具。”

咱们还没有齐全到达这一点。生成式视频的一个严重疑问是用户对输入的控制才干有限。生成静态图像或许会命中或错误；生成几秒钟的视频甚至愈加风险。

“如今还很幽默，你会有豁然开朗的时辰，”Miao说道。“但生成齐全合乎你要求的视频是一个十分艰巨的技术疑问。从一个繁多提示生生长而分歧的视频还有一段路要走。”

这就是为什么Vyond的Lipkowitz以为，这项技术对大少数企业客户来说尚未预备好。他说，这些用户对视频外观的控制想要比工具给予的更多。

环球数千家公司，包含约65％的《财产》500强企业，经常使用Vyond的平台为外部沟通、培训、营销等创立动画视频。Vyond应用了一系列生成模型，包含文本到图像和文本到语音，但提供了一个便捷的拖放界面，让用户一步一步手动组合视频，而不是一键生成完整的剪辑。

运转生成模型就像掷骰子一样，Lipkowitz说。“关于大少数视频制造团队来说，这是一个明白的拒绝，特意是在企业部门，其中一切都必需完美无瑕并合乎品牌规范，”他说。“假设视频出现疑问——兴许人物有太多手指，或许或许有一个颜色错误的公司Logo——那就可怜了，这就是生成AI的上班原理。”

处置方案？更多的数据，更多的训练，不时重复。“我宿愿我能指向一些复杂的算法，”Miao说道。“但不，这只是更多的学习。”

3.只管误导消息并不是新颖事，但深度伪造视频会使状况变得更糟

多年来，网络误导消息不时在破坏咱们对媒体、制度和彼此的信赖。一些人担忧，将虚伪视频参与混合中会捣毁咱们留下的任何独特理想的支柱。

“咱们正在用不信赖、困惑、恐惧和恼恨取代信赖，”Pechoucek说。“没有基本理想的社会将会腐化。”

Pechoucek特意担忧深度伪造视频在选举中的恶意经常使用。例如，在去年的斯洛伐克选举中，攻打者分享了一个虚伪视频，显示上游的候选人探讨了操纵选民的方案。这段视频品质低，很容易辨以为深度伪造。但Pechoucek以为这已足以改动结果，使其无利于另一位候选人。

“Adventurous Puppies” is a short clip made by OpenAI using with Sora.

Blackbird AI是一家跟踪和治理网络误导消息流传的公司，该公司的策略和翻新团队担任指导。该公司的约翰·维辛格以为，当假视频融合实在和虚伪镜头时，假视频会最具压服力。拿总统乔·拜登走过舞台的两段视频为例。一段视频中他摔倒了，而另一段没有。谁能说哪个是实在的？

“假定某个事情确实出现了，但出现给我的模式略有不同，”维辛格说。“这或许会影响我的情感反响。”正如Pechoucek所指出的那样，一个假视频甚至不须要很好，就足以发生影响。维辛格说，一个合乎现有成见的蹩脚伪造视频将比一个精心制造但与理想不符的伪造视频形成更大的损伤。

这就是为什么Blackbird专一于谁与谁分享什么。在某种意义上，某事物是真是假并不像它来自何处以及它如何流传那样关键，维辛格说。他的公司曾经追踪低技术误导消息，例如在社交媒体上展现实在图像但高低文不明白的帖子。生成技术使状况变得更糟，然而人们以误导的模式出现媒体的疑问，无论是有意还是有意，都不是新疑问，他说。

假设将机器人混入其中，在社交网络上分享和推行误导消息，状况会变得凌乱。只需知道有假媒体存在，就会在恶意探讨中播下疑心的种子。维辛格说：“你可以看到，很快就或许变得无法能再分辨出什么是分解的，什么是实在的了。”

4、咱们侧面临着一个新的网络理想

伪造品很快将无处不在，从虚伪消息宣传优惠，到广告片，再到好莱坞大片。那么，咱们该如何辨别理想和空想呢？有一系列处置方案，但独自任何一个都无余以处置疑问。

科技行业正在钻研这个疑问。大少数生成工具尝试强迫执行某些经常使用条款，比如防止人们创立群众人物的视频。然而有方法可以绕过这些过滤器，而开源版本的工具或许带有更宽松的政策。

公司还在制订AI生成媒体的水印规范和检测工具。但并非一切工具都会增加水印，而且水印可以从视频的元数据中去除。也不存在牢靠的检测工具。即使这样的工具备效，它们也将成为一场追逐模型提高的猫鼠游戏的一局部，这些模型旨在监管这些工具。

像X和Facebook这样的在线平台在内容治理方面的记载很差。一旦疑问变得愈加辣手，咱们不应指望它们能够做得更好。Miao曾在TikTok上班，在那里他协助构建了一个内容治理工具，用于检测违犯TikTok经常使用条款的视频上行。即使是他也对行将出现的事情感到担忧：“真的存在着风险，”他说。“不要置信你在笔记本电脑上看到的物品。”

Blackbird开发了一个名为Compass的工具，它可以用来对文章和社交媒体帖子启动理想核对。将链接粘贴到该工具中，一个大型言语模型将从可信的在线起源（维辛格说这些一直可以审查）中生成一个冗长摘要，为链接的资料提供一些背景消息。其结果与X、Facebook和Instagram等网站上有时会附加到有争议的帖子上的社区注释十分相似。该公司想象Compass为任何内容生成社区注释。“咱们正在努力成功这一指标，”维辛格说。

然而，将链接放入理想核对网站的人曾经相当精明了，而许多其他人或许不知道这样的工具存在，或许或许不愿置信它们。误导消息往往也比任何随后的更正流传得更宽泛。

与此同时，人们对这终究是谁的疑问存在分歧。Pechoucek示意，科技公司须要开明其软件，以促成围绕安保和信赖的竞争。这也将使他这样的网络安保公司能够开发第三方软件来监管这项技术。他说，这就是30年前Windows出现恶意软件疑问时出现的事情：“微软准许杀毒软件公司进入协助包全Windows。结果，网络环球变得更安保了。”

然而Pechoucek并不太失望。“技术开发者须要以安保为首要指标来构建他们的工具，”他说。“但更多的人思考如何使技术更弱小，而不是担忧如何使其更安保。”

Made by OpenAI using Sora.

在科技行业有一个经常出现的宿命论的说法：改革曾经来到，咱们必需应答。“生成式人工自动不会被敞开，”Raskino说。“这或许不太受欢迎，但我以为这是真的：我以为科技公司无法承当所有责任。归根结底，对任何技术的最佳进攻是一个受过良好教育的群众。没有捷径。”

Miao也赞同。“大规模驳回生成技术是无法防止的，”他说。“但这也是整个社会的责任。咱们须要教育人们。”

“技术会不时开展，咱们须要为这种变动做好预备，”他补充道。“咱们须要提示咱们的父母、好友，他们在屏幕上看到的物品或许并不实在。”他说，这关于老一辈人尤其关键：“咱们的父母须要看法到这种风险。我以为每团体都应该独特努力。”

咱们须要迅速独特努力。一个月前，Sora问世时，科技界对生成式视频的迅速开展感到震惊。但绝大少数人甚至不知道这种技术的存在，维辛格说：“他们必需不了解咱们所处的趋向线。我以为这将会令环球大为震惊。”

关注微信

上一篇：大模型为什么要求训练大模型训练究竟干了什么大模型所谓的参

下一篇：咱们要的究竟是什么 Agent智能体

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：https://duobeib.com/diannaowangluoweixiu/5951.html

生成式视频的下一步是什么

1. Sora只是一个开局

2.人们会如何应用生成式视频

3.只管误导消息并不是新颖事，但深度伪造视频会使状况变得更糟

4、咱们侧面临着一个新的网络理想

猜你喜欢

热门标签

随便看看

TCP发送窗口接纳窗口以及其上班原理

I 如何发现 PostgreSQL 和中那些消耗 CPU

如何改良DevOps上班流

安保无大事安保防范从Nginx性能做起程序员安保规范

斯坦福学者提出Edu

热门资讯

阅读排行

Waymo玩明确了！全新多模态端到端算法EMMA 感知规参差网打尽~

物联网安保畛域的新方法

电脑开机提示Default Boot Device Missing or Boot Failed错误

Web 人工智能的力气开发人员依然没有失业为什么

2011 一年一百美元的企业数据中心 vForum

关注我们

生成式视频的下一步是什么

1. Sora只是一个开局

2.人们会如何应用生成式视频

3.只管误导消息并不是新颖事，但深度伪造视频会使状况变得更糟

4、咱们侧面临着一个新的网络理想

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号