NVIDIA 联结团队提出长视频了解的前沿技术BREASE 新框架衔接情节和语义

  • 电脑网络维修
  • 2024-11-15

随着互联网和社交媒体平台上视频内容的爆炸性增长,视频了解技术的关键性日益凸显。视频了解不只仅是对视频内容的便捷分类或标签化,而是深化剖析视频中的举措、场景、情节和语义消息。这项技术在多个畛域具备宽泛的运行前景,包括视频摘要、内容检索、内容审核、版权包全和智能介绍等。

在消息时代,视频了解技术表演着越来越关键的角色。随着视频内容的激增,如何有效地理解和处置这些内容成为了一个关键疑问。视频了解不只仅是对视频启动分类或标注,而是须要深化剖析视频中的举措、场景、情节和语义消息,这项技术在多个畛域具备宽泛的运行前景。

视频摘要方面,经过智能生成视频摘要,用户可以极速失掉视频的外围内容,节俭期间和精神。这在资讯、教育和文娱等畛域尤为关键。内容检索方面,视频了解技术可以协助用户经过视频内容启动搜查和检索,提高消息失掉的效率。例如,在大型视频库中极速找到相关视频片段。内容审核方面,智能检测和过滤不良内容,保证平台内容的安保性。这关于社交媒体平台和视频分享网站尤为关键,可以有效防止不良消息的流传。版权包全方面,经过识别和治理视频内容的版权消息,防止侵权行为的出现。这关于包全创作者的权力和保养市场次第具备关键意义。智能介绍方面,依据用户的观看历史和偏好,介绍相关视频内容,优化用户体验。这在流媒体平台和视频分享网站中失掉了宽泛运行。

目前,大少数视频了解钻研关键集中在短视频的处置上,这些方法通常依赖于卷积神经网络(CNN)和Transformer等模型。但是长视频了解面临着更大的应战,关键包括期间复杂性、语义了解和内存计算限度等疑问。

长视频蕴含少量帧,处置这些帧须要高效的期间序列剖析方法。现有的方法在处置长视频时,往往不可有效应答期间复杂性的疑问。长视频通常蕴含复杂的叙事结构和上档次的语义消息,须要对视频中的上档次概念和叙事结构启动深入了解。但是,现有的方法在语义了解方面体现无余。处置长视频须要少量的计算资源和内存,现有方法在这方面往往体现无余,难以在实践运行中推行。

虽然一些钻研尝试将短视频了解的方法裁减到长视频,但这些方法通常未能充沛思考长视频的共同个性,造成性能优化有限。例如,传统的方法往往将长视频视为多个短视频的便捷拼接,疏忽了长视频中情节和语义的延续性和复杂性。

为了填补现有方法在长视频了解中的空白,NVIDIA、国立台湾大学和国立清华大学(中国台湾)的联结团队提出了一个新的框架——BREASE(BRidging Episodes And SEmantics)。该框架的设计灵感来自于人类的认知环节,旨在经过模拟情节记忆积攒和语义常识的结合,更准确地理解长视频内容。

BREASE框架的关键指标是开发一个高效的情节紧缩器(Episodic COmpressor,ECO),能够从微观到半微观层面聚合关键示意,捕捉视频中的举措序列。ECO经过模拟人类的情节记忆积攒环节,有效地将视频内容分解为多个情节单元,从而提高模型的了解才干。此外,BREASE还提出了一个语义检索器(Semantics reTRiever,SeTR),经过关注更宽泛的高低文,增强模型对视频内容的了解,清楚缩小特色维度,同时保管相关的微观消息。SeTR经过提取视频中的上档次语义消息,协助模型更好地理解视频的全体结构和内容。

经过这两个关键组件,BREASE框架在多个长视频了解基准上成功了最先进的性能,清楚逾越了现有方法。论文的钻研指标是经过BREASE框架,处置长视频了解中的期间复杂性、语义了解和内存计算限度等疑问,为视频了解技术的开展提供新的思绪和方法。少量试验标明,BREASE 在零样本和全监视设置的多个长视频了解基准中均成功了最佳性能。名目页面和代码位于:。

这项钻研由来自不同机构的专家团队协作成功,成员有来自国立台湾大学的Gueter Josmy Faure、Jia-Fong Yeh、Hung-Ting Su和Winston H. Hsu,他们在视频了解和计算机视觉畛域有着丰盛的钻研阅历。Winston H. Hsu不只是国立台湾大学的传授,还在Mobile Drive Technology担任关键职务,担任名目的全体协和谐技术指点。来自NVIDIA的Min-Hung Chen,专一于深度学习和视频了解技术的钻研,为团队带来了工业界的先进技术和通常阅历。国立清华大学的Shang-Hong Lai,专一于计算机视觉和图像处置畛域的钻研,为团队提供了松软的学术支持。

这个多机构协作团队结合了学术界和工业界的力气,努力于推动长视频了解的钻研。经过他们的共同努力,BREASE框架在长视频了解畛域取得了清楚的停顿,为视频了解技术的开展提供了新的思绪和方法。

相关上班

在视频了解畛域,钻研者们曾经在多个方向上取得了清楚停顿。

举措识别是视频了解中的一个外围义务,关键关注在短视频片段中识别特定的举措。早期的钻研关键依赖于卷积神经网络(CNN),例如经常使用3D卷积来捕捉视频中的时空特色。随着技术的开展,钻研者们逐渐引入了期间卷积和其余更复杂的模型来提高识别精度。

近年来,基于Transformer的模型在举措识别中体现出色。例如,钻研者们经过引入自留意力机制,使模型能够更好地捕捉视频中的长距离依赖相关。这些模型在多个举措识别基准上取得了最先进的性能,展现了其在处置复杂视频数据方面的后劲。

视频问答(VQA)是视频了解中的另一个关键义务,旨在回答与视频内容相关的疑问。这须要模型对视频中的视觉消息和文本消息有深入的了解。为此,钻研者们开发了多个数据集,如ActivityNet-QA和MovieChat-1k,这些数据集为评价模型在视频问答义务中的体现提供了基准。

在VQA义务中,模型不只须要识别视频中的物体和举措,还须要了解视频的高低文和叙事结构。这通常触及到多模态学习,即结合视觉和文本消息启动联结建模。近年来,随着大规模预训练模型的出现,VQA义务的性能失掉了清楚优化。

与短视频相比,长视频了解面临着更多的应战。长视频通常蕴含复杂的叙事结构和少量的帧,这使得处置和了解这些视频变得愈加艰巨。为了应答这些应战,钻研者们开发了多个专门用于长视频了解的数据集,如LVU、COIN、Breakfast和MovieChat。

传统的方法往往将长视频视为多个短视频的便捷拼接,疏忽了长视频中情节和语义的延续性和复杂性。为了更好地理解长视频,钻研者们提出了多种方法,包括记忆技术和形态空间模型(SSM),这些方法能够更有效地处置长期间跨度的视频数据。

最近,大言语模型(LLM)在视频了解中的运行惹起了宽泛关注。这些模型经过将视频内容转化为文字,能够更好地理解视频的语义消息。例如,在视频字幕生成、视频问答和举措分类等义务中,LLM展现了其弱小的才干。

一些钻研提出了经常使用记忆技术处置少量视频内容的框架,这些框架能够有效地治理视频中的期间依赖消息。此外,钻研者们还探求了如何应用LLM启动长视频了解,经过结合视觉和文本消息,进一步优化模型的性能。

视频了解畛域的钻研正在始终开展,新的方法和技术始终涌现。经过结合情节记忆和语义常识,BREASE框架为长视频了解提供了一个新的思绪,展现了其在处置复杂视频数据方面的后劲。

方法

BREASE的设计理念

BREASE(BRidging Episodes And SEmantics)框架的设计灵感来自于人类的认知环节,旨在经过模拟情节记忆积攒和语义常识的结合,更准确地理解长视频内容。该框架的外围思念是将视频内容分解为多个情节单元,并经过语义消息启动强化,从而提高模型的了解才干。BREASE框架由多个模块组成,每个模块在视频处置的不同阶段施展关键作用。

图1:框架概述。逐窗口流式传输视频,并经常使用解冻的ViT提取特色。每个窗口特色都由ECO(如图左下所示)以在线方式处置,在此环节中摈弃冗余,并保管传递给情节Q-Former的视频片段。视频令牌库蕴含每个窗口的特色,SeTR仅选用初级消息传递到分层帧以对Q-Former启动排序。而后将情节和初级示意衔接起来,而后馈送到解冻的LLM,LLM依照指令输入文本。

视频编码的初步处置

BREASE框架的第一步是对视频启动编码处置。为了处置恣意长度的视频,首先须要指定要提取的帧数,将视频宰割成若干不堆叠的窗口。每个窗口的特色由ViT-G/14模型逐渐编码,提取出视频数据的特色示意。这些特色示意将作为后续处置的输入,为情节紧缩器(ECO)提供基础数据。

情节紧缩器的上班机制

ECO(Episodic COmpressor)是BREASE框架中的关键组件之一,担任将视频内容分解为多个情节单元。ECO经过保养一个最大容量为E的记忆缓冲区,接纳窗口特色后,审核缓冲区能否有足够带宽。假设有,则间接衔接;否则启动紧缩。ECO的外围是经过计算帧特色的余弦相似度,兼并最相似的帧,直到满足大小解放。这样可以有效地缩小冗余消息,保管视频中的关键情节。

其中M是现有缓冲区,Fw示意w帧特色的传入窗口,A是衔接的缓冲区和新窗口,∥A∤A的大小。总结方程式(2),Ai·Aj Ai Aj计算帧特色Ai和Aj之间的余弦相似度,arg-maxi̸=j找到余弦相似度最高的帧对,(Ai∗+Aj∗)2组合最相似的帧,A\Aj*删除帧Aj*兼并后的A。重复该环节,直到A的大小在准许的最小事情E范围内,并且A成为新的缓冲区M′。

情节查问变换器的作用

Episodic Q-Former经常使用与原始Q-Former相反的架构,经过自留意力和交叉留意力机制处置初始查问和视觉示意。详细来说,Episodic Q-Former首先对初始查问启动自留意力处置,而后与ECO提供的视觉示意启动交叉留意力处置。经过这一环节,查问被增强,并经过相似ECO的环节兼并相似查问,构成高消息密度的情节。这有助于在整个视频中坚持查问的数量恒定,提高模型的处置效率。

语义检索器的配置

SeTR(Semantics reTRiever)是BREASE框架中的另一个关键组件,担任从视频特色中提取上档次的语义消息。SeTR经过归一化特色、分组、计算相似度分数并兼并最相似的帧,缩小帧数,保管最相关的特色。详细来说,SeTR首先对视频特色启动归一化处置,而后将帧分为两组,计算两组帧之间的相似度分数,并兼并最相似的帧。这样可以有效地缩小特色维度,同时保管视频中的关键语义消息。

将视频示意转化为人造言语输入

在BREASE框架中,SeTR提取的语义示意经过档次化Q-Former处置后,与Episodic Q-Former的输入衔接,投射到大言语模型(如Vicuna-7B)的输入空间。大言语模型依据提供的指令,生成所需的人造言语输入。这一环节将视频的视觉示意转化为人造言语形容,使得模型能够回答与视频内容相关的疑问,生成视频字幕,或启动其余方式的文本生成义务。

经过这些模块的协同上班,BREASE框架能够高效地处置和了解长视频内容,清楚提高了视频了解的性能和准确性。

试验与结果

LVU和MovieChat数据集

在本钻研中,BREASE框架的性能在两个关键数据集上启动了评价:LVU和MovieChat。LVU数据集专一于电影内容和元数据,提供了丰盛的长视频分类义务。MovieChat数据集则是一个新引入的数据集,专门用于长视频问答义务,涵盖了电影中的对话和情节消息。这两个数据集的选用,旨在片面评价BREASE框架在不同长视频了解义务中的体现。

在不同数据集上的体现

在试验中,BREASE框架展现了其在长视频了解义务中的出色性能。经过对LVU和MovieChat数据集的测试,BREASE框架在多个基准上成功了最先进的结果,清楚逾越了现有方法。

表1:LVU数据集的SOTA比拟:该表显示了各种模型的前1精度。最高分以粗体突出显示,次高分以下划线突出显示。与其余方法中观察到的庞大增量改良不同,咱们的模型体现出了清楚的性能飞跃,平均比其最凑近的竞争对手高出7.3%。

分类准确率的优化

在LVU数据集上,BREASE框架的体现尤为突出。试验结果显示,BREASE在长视频分类义务中的top-1分类准确率清楚提高了7.3%。这一清楚优化标明,BREASE框架在处置复杂电影内容和元数据时,能够更好地捕捉和了解视频中的关键情节和语义消息。

零样本和齐全监视场景下的体现

在MovieChat数据集上,BREASE框架雷同体现出色。在零样本形式下,BREASE的准确率提高了14.9%,清楚超越了之前的最先进方法。此外,在齐全监视场景下,BREASE框架经过对MovieChat训练集启动一次性训练,进一步优化了模型的性能。这些结果标明,BREASE框架在处置长视频问答义务时,能够有效地理解和回答与视频内容相关的疑问。

ECO和SeTR的关键性剖析

为了进一步验证BREASE框架中各个组件的关键性,钻研团队启动了屡次消融试验,重点剖析了ECO和SeTR的作用。

在ECO的关键性试验中,结果标明,缺少ECO会造成模型性能清楚降低。详细来说,ECO经过有效地紧缩和聚合视频中的情节消息,清楚提高了模型的了解才干。相比之下,经常使用随机选用特色或FIFO流式方法的代替战略,均未能到达ECO的成果。

在SeTR的关键性试验中,结果显示,移除SeTR会造成准确率降低5%。SeTR经过提取视频中的上档次语义消息,协助模型更好地理解视频的全体结构和内容。相比之下,便捷的方法如最大池化敌对均池化成果不如SeTR。

经过这些消融试验,钻研团队验证了ECO和SeTR在BREASE框架中的关键作用,进一步证实了BREASE框架在长视频了解义务中的出色性能。

BREASE框架在LVU和MovieChat数据集上的试验结果,展现了其在长视频了解义务中的弱小才干。经过有效地结合情节记忆和语义消息,BREASE框架为长视频了解提供了一个新的思绪,清楚优化了视频了解的性能和准确性。

探讨

BREASE框架的翻新点

BREASE框架在长视频了解畛域引入了多项翻新,清楚优化了模型的性能和了解才干。首先,BREASE经过模拟人类的认知环节,将视频内容分解为多个情节单元,并经过语义消息启动强化。这种方法不只提高了模型对视频内容的了解深度,还有效地缩小了冗余消息。

Episodic COmpressor (ECO) 是BREASE框架中的关键组件之一。ECO经过保养一个记忆缓冲区,灵活地紧缩和聚合视频中的情节消息,保管了视频中的关键情节。这种方法模拟了人类的情节记忆积攒环节,使得模型能够更好地捕捉视频中的举措序列和情节变动。

Semantics reTRiever (SeTR) 则经过提取视频中的上档次语义消息,增强了模型对视频内容的了解。SeTR经过归一化特色、分组、计算相似度分数并兼并最相似的帧,缩小了特色维度,同时保管了视频中的关键语义消息。这种方法不只提高了模型的处置效率,还增强了模型对视频全体结构和内容的了解。

与现有方法的对比

在多个长视频了解基准上,BREASE框架展现了其出色的性能。与现有方法相比,BREASE在LVU和MovieChat数据集上的体现尤为突出。在LVU数据集上,BREASE的top-1分类准确率清楚提高了7.3%,展现了其在处置复杂电影内容和元数据时的弱小才干。在MovieChat数据集上,BREASE在零样本形式下的准确率提高了14.9%,清楚超越了之前的最先进方法。这些结果标明,BREASE框架在处置长视频问答义务时,能够有效地理解和回答与视频内容相关的疑问。

经过消融试验,钻研团队进一步验证了ECO和SeTR在BREASE框架中的关键作用。结果显示,缺少ECO会造成模型性能清楚降低,而移除SeTR则会造成准确率降低5%。这些试验结果进一步证实了BREASE框架在长视频了解义务中的出色性能。

在实践运行中的后劲

BREASE框架在实践运行中具备宽泛的后劲。首先,在视频摘要方面,BREASE可以智能生成视频摘要,协助用户极速失掉视频的外围内容,节俭期间和精神。这在资讯、教育和文娱等畛域尤为关键。其次,在内容检索方面,BREASE可以经过视频内容启动搜查和检索,提高消息失掉的效率。例如,在大型视频库中极速找到相关视频片段。

在内容审核方面,BREASE可以智能检测和过滤不良内容,保证平台内容的安保性。这关于社交媒体平台和视频分享网站尤为关键,可以有效防止不良消息的流传。在版权包全方面,BREASE可以识别和治理视频内容的版权消息,防止侵权行为的出现。这关于包全创作者的权力和保养市场次第具备关键意义。

此外,BREASE还可以用于智能介绍,依据用户的观看历史和偏好,介绍相关视频内容,优化用户体验。这在流媒体平台和视频分享网站中失掉了宽泛运行。总的来说,BREASE框架为长视频了解提供了一个新的思绪,展现了其在处置复杂视频数据方面的弱小才干和宽泛运行前景。

参考资料:

本文转载自​​,作者:​​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5630.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号