蚂蚁多模态团队在视频多模态方向的技术探求

电脑网络维修
2024-11-14

视频多模态检索在蚂蚁外部有着宽泛的运行。视频多模态检索详细包括两个方向，一个是视频-文本的语义检索，另外一个是视频-视频的同源检索。

视频-文本的语义检索方向旨在经过文本检索与其语义相近的视频，其检索文本未必在检索到的视频描画中间接出现，但检索视频的内容与检索文本要求保障语义相关。例如，在支付宝的搜查栏中，用户希冀经过文本检索出与之相关的视频内容；在安保防控场景中，可经过文本检索来查找安保防控场景中的敏感视频。检索文本通常是短文本。

另一方向是视频-视频的同源检索。同源检索可以实如今视频底库查找与查问视频相关的片段，在实践场景中有着宽泛运行。例如在启动视频洽购时，可以防止洽购到已有视频，从而降落洽购老本；在视频版权包全中，当用户提供一段短视频时，要求经过对海量视频底库检索来判别该视频能否存在侵权。

极速优化视频-文本语义检索的方法包括：视频-文本预训练、关注难样本和引入细粒度。关于视频-文本预训练方面，咱们在 MSRVTT 文本视频检索数据集上经常使用 r@sum 目的来权衡语义检索算法效果，其中 r@sum 目的将 top1-recall（r@1），top-5 recall （r@5）和 top-10 recall（r@10）的目的相加失掉。经过驳回视频-文本预训练的手腕，咱们在 r@sum 目的上成功了 24.5% 的优化；随后引入关注难样本，成功提高了 r@sum 8.1%；引入细粒度识别技术，可以优化 r@sum 2.8%。除此之外，在视频的同源检索畛域，咱们自主研发了视频侵权检测方法。基于此方法，成功节俭了 85% 的存储量，并且在侵权检索中能够成功 18 倍的速度优化，同时，检索效果相较于传统的视频检索方法，在 top1 F1-score 上有 2.78% 的优化。接上去，将围绕着视频-文本语义检索和视频-视频同源检索两慷慨向，详细论述咱们的优化方法。

在过去的一年里，咱们在视频文本语义检索方向启动了三个方面的钻研，以提高视频-文本的语义检索效果，区分为：视频-文本预训练、关注难样本以及引入细粒度。

第一个关键性停顿是视频-文本预训练技术。在展开相关引见前，先引见下“视频-文本预训练”的含意。

预训练是正式 finetune 前的阶段，它关键是应用大规模且无监视的视频-文本对数据启动语义对齐训练，以优化下游义务的表征才干。经过预训练，咱们希冀模型能在各类下游义务上取得良好的表现。在详细的运行中，经常出现的下游义务包括视频-文本检索(video-text retrieval)、VQA（video question answering）、视频描画生成(video captioning)等。

无了解预训练义务之前，要求了解两个概念，一个是视频-文本 pair 数据从何而来，另一个则是如何了解视频所对应的文本。通常一个视频会对应两个文原本源，其一是视频所对应的题目描画，这个描画通常是对整个视频内容的概述，比如短视频 app 中每个视频对应的题目文本；另外一个起源是每段视频装备的音频，并经过语音识别（ASR）技术，将音频所对应的文本识别进去。依据 ASR 的起止期间区间，可将其对应的视频片段视为以前期间片段的 ASR 文本，进而建设起视频和文本的关联相关。咱们基于以上两种关联数据构建大规模无监视的视频-文本对，并在此数据集上启动预训练。而后将预训练后的模型作为各项下游义务的初始化模型，可以清楚提上下游义务的效果。

国际大少数短视频场景关键面向中文用户，在中文视频-文本预训练方面，咱们关键面临两大应战。首先，缺少地下可用的中文视频-文本预训练数据集，学术界通经常常使用的数据集大多为英文文本，例如 HowTo100M 和 WebVid 等，难以失掉地下的中文视频-文本预训练数据集，鉴于此，咱们构建出了业界首个放开访问的中文视频-文本预训练数据集，该项成绩已于 2023 年的 CVPR 上宣布。其次模型设计时需关注跨模态交互，以成功视频和文本之间更深度的交互与融合，从而优化视频-文本检索的效果。咱们提出了一种增强视频-文本跨模态交互的新型模型，即 SNP-S3，该上班已宣布于 2023 年的 IEEE T-CSVT 期刊上。

首先来引见第一部分的关键钻研成绩。咱们提出了业界首个地下颁布的中文视频-文本预训练数据集，经过在该数据集上启动预训练，能够清楚优化中文视频文本检索模型的效果。

关键上班包括三部分：首先构建了大规模的地下中文视频-文本数据集 CNVid-3.5M；其次驳回有效的数据处置方法，过滤掉那些婚配度不高的视频和文本对数据，清楚提高了数据品质；最后咱们在 CNVid-3.5M 上启动中文预训练，验证了咱们提出的 CNVid-3.5M 可以清楚优化中文视频-文本预训练的效果，并建设了该数据集上的 benchmark。整个环节如上图所示。

接上去引见数据集的结构环节。咱们从多个中文视频网站上搜集原始视频。在搜集视频时，咱们会特意关注视频的类别、主题，并尽力坚持各个类别与主题间的平衡性。咱们成功构建了 450 万个原始的中文视频-文本对。上图展现了视频对应的文本关键词所生成的词云。

在搜集完数据后，紧接着是数据荡涤的上班，将数据集中相对低品质的视频-文本对启动过滤。原始的视频-文本对并不是严厉在语义上对齐的。例如，存在于视频中的视觉信号与该视频背景音噪音频转换而来的文本，或许并无明白的语义关联性，而且引入背景音噪音频的文本或许会作为污染训练数据。因此，咱们尽或许地把不相关的这些视频-文本对过滤掉。为了成功这一目的，咱们提出了经常使用图文预训练模型启动视频数据荡涤的方法。详细实施步骤如下：首先咱们应用训练好的图文相关性模型 CLIP，评价文本与视频中每一帧关键帧之间的相关性，并将关键帧之间的相关性启动聚合失掉全体相关性，经过对全体相关性设定阈值，来滤除相关性较低的视频。至此，咱们过滤掉凑近 100w 低质的视频-文本对，保管了约 350 万条中文视频-文本对。

上图中展现了咱们构建的 CNVid-3.5M 数据集的基本目的统计。截至分享期间，咱们所构建的中文 350 万的 CNVid-3.5M 是业界最大的地下的中文视频-文本预训练数据集。

接上去咱们基于 CNVid-3.5M 数据集构建了 Benchmark，以观察各种不同架构的模型在咱们构建的数据集上启动预训练的效果能否有优化。

上图展现了三个阶段的详细试验结果。在构建数据集的环节中，经常使用咱们搜集构建的原始数据集启动视频-文本预训练，结果显示在翻译后的中文 MSRVT 数据集的表现上，经过预训练后与预训练前相比，总的 R@SUM 目的有了 17.7% 的清楚优化。同时，表格中也提醒了在咱们的过滤阶段，将 450 万数据过滤为 350 万时，只管预训练数据量有所缩小，但全体上模型的效果反而有所增强。

中文视频-文本预训练的第二个难点是在模型设计上，要求关注跨模态的交互，针对这个疑问咱们提出了增强视频-文本跨模态交互的模型 SNP-S3。S3 指的是关键的语义消息的增强，其针对传统预训练的以下两个缺陷设计。

传统预训练义务，普通是在跨模态 encoder 下面，间接去用 mask language modeling 义务做预训练，另外一个经常出现的预训练义务是做全局的 Vision-Text Matching 的义务。如上图所示，传统的 Mask Language Model （MLM）义务存在的一个疑问是，当 mask 的 token 是文本当中不太关键的词时，比如量词 a，模型甚至可以不去看视频相关的内容，经过语法的常识就能够把 mask 的词间接还原进去。但是当 mask 的词是关键词时，模型就必定看到视频，才干够知道 mask 的词是什么。比如男孩衣着一件白色的衣服，假设把白色 mask 掉，模型没有看到视觉输入的话是没有方法去重建的。经过强制模型必定要基于给定的视觉输入去推理 mask 的文本内容这种形式，增强了各个不同模态之间的交互。

传统的 Vision-Text Matching 的义务存在的疑问是，它更多的是做全局的对齐，视觉跟文本更多是在整个句子层面的语义去做对齐。句子层面的对齐是全局的粒度，缺乏部分消息。比如在句子中，把关键的词如red 间接去掉，去跟视频 matching 它依然是可以做得十分好的。这也就象征着检索模型其实并没有细粒度的区分才干。像red 这种属性词，还有一些动词，都要求更细粒度的才干。咱们宿愿能够在传统的基于全局的婚配基础上，让模型能够对这些细粒度的消息愈加敏感。由此引入了关键词婚配的形式，把句子中更关键的词汇，比如名词、动词、描画词与视频来做属性的婚配，以此来增强模型在细粒度上的识别才干。

这两点改良，即针对 Mask Language Modeling 关键词来做 mask（Mask Significant Semantic Model，MSSM)，和在全局消息下面参与细粒度的改良（LVWM），都是为 S3 清楚性语义增强的目的来服务。

这里引见 S3 详细的成功。MSSM 义务，重点在于将关键词语间接 mask 掉，强依赖于给定的视觉输入来重建被 mask 掉的词语。LVWM 义务则是参与了视觉输入与单词婚配的义务。详细而言，之前的 Mask Language Modeling 是依照必定的概率从文本中随机挑词，要求挑出关键的词。关键词有两种定义，一种是用词性打标工具去定义，另外一种是经过在整个大的数据集上去统计一个词出现的频次，用相似于TF-IDF 的形式权衡词的关键性。在这里咱们结合了这两种形式，要成为关键词首先必定是名词、动词和描画词；此外，词频不能特意高，词频越低其 IDF 就会越大，词频高攀象征着其消息量较高，经过这种形式挑选出关键的词启动 mask。另外一个改良是视觉和单词的婚配。将第一步挑选出的关键词，与视觉信号区分来做婚配，每个词都会有一个与视觉输入的相似度，最终把相似度聚合，失掉句子从单词的维度跟视觉的婚配水平，进而构建相似矩阵。构建的矩阵会跟之前全局视觉文本的婚配的相似度矩阵一同加到 loss 外面去做优化。

这里对 S3 方法启动了定量剖析，可以失掉以下论断：

咱们也对 S3 方法启动了定性剖析。加上 S3 之后，给定输入文本，模型会关注到视觉上跟文本更相关的区域。上图展现了一些详细的例子，比如人在海上冲浪的图片，可以看到 baseline 关注区域是扩散的，并没有太多的语义，但是加上了 S3 方法之后，它会关注人，还会关注前面海浪的背景。

以上就是对视频-文本预训练的引见，关键包括两方面的内容，首先是如何构建中文视频-文本预训练数据集；第二是在模型设计环节，如何强化视频文本的交互水平。经过这两项优化可以清楚提高视频-文本语义检索的效果。

接上去继续分享如何经过关注难题样本进一步优化视频-文本语义检索效果。关注难样本可使视频-文本语义检索优化 R@Sum 近 8.1%。

关注难样本的要点是模型在学习的环节中能够逐渐去关注难样本，这关键的要素是难样本并不是一开局对模型的训练就有协助的。在训练刚开局的时刻，难样本或许会让模型难以收敛，但是当模型收敛得比拟好的时刻去关注难样本，可以对模型的性能有更进一步地优化。

关注难样本关键有两个思绪，一个是人工指定对难样本的关注度，比如依据模型训练的不同阶段设定对难样本不同的关注度；另一个是让模型自顺应地去学习对难样本的关注度，咱们团队在这两个方面都启动了探求。

首先引见下人工指定对难样本的关注度这一战略，关键经常使用的方法是基于课程学习的难样本开掘上班，该上班宣布在 CVPR2023 上。

训练环节中的样本大抵可以分为好的样本、难样本，还有噪声样本。所谓好的样本，是指视频-文本 pair 语义对齐的品质相对较高，文天性够在语义上描画清楚视频片段所对应的内容。难样本指的是，视频跟文本也是语义对齐相关，但是文本所表现的语义，跟视频是弱相关的，但是也有相关性。而噪声样本则是指视频和对应文本语义上简直没有相关性，比如视频所对应的音频中歌词与视频的语义关联并不大，歌词并不能够描画视频的语义，这种文本跟视频相关性比拟低的视频-文本 pair 咱们定义为噪声样本。

这三种样本在训练环节中起到的作用也是不一样的。首先噪声样本，不论是在训练刚开局，还是在训练最后都对训练有负面影响，所以噪声样本是要求间接摈弃的；关于高品质的样本，在训练开局的阶段模型会更多去关注，可以减速模型的收敛；关于难样本，则是在模型曾经收敛到必定水平，曾经有比拟好的表现时要更多关注难样本，可以让模型更好地学习难例，进一步优化模型性能。但假设在一开局就关注难样本，或许会使模型学偏造成不可很好地收敛。

基于这个观察，咱们设计了难例课程学习的算法，算法的外围思绪是经过课程学习的形式，刚开局的时刻让模型更多去关注好的样本，在模型有必定相关性判别才干之后尝试做难例开掘，让模型能够在训练的前期更多地关注比拟艰巨的样本。

详细的做法如上图所示，首先第一步是驳回 contrast learning 的形式构建了视频和文本的相似度矩阵，相似度矩阵的对角线均为正样本，对角线以外都是负样本，接上去依据对角线下面的相似度的值来判别的正样本是难样本还是便捷样本。普通来说假设对正样本的相似度比拟高，或许就是便捷样本。经过这种形式在列维度对难样本做度量。同时，也内行层面对难样本启动度量，每一行都代表文本跟batch 内一切视频的相似度，咱们取出一切负样本，假设文本跟负样本的相似度比拟高，那么就以为视频-文本样本是难例。接上去，咱们把基于行还有基于列的度量结合在一同，构建 VTM(video-text matching) loss 的权重。这一权重由行加权和列加权独特作用得出，权重系数的大小是经过课程学习的形式来调整的，刚开局的时刻权重为 0，就相当于没有加难例开掘的 loss；随着训练的启动，会让权重 loss 的部分越来越大，这样让模型逐渐关注到难样本上。

咱们经过试验剖析了模型参与 HSCL 难样本课程学习的 loss 之后的效果表现。驳回了两个数据集，一个是中文的预训练和 fine tuning 的数据集 CNVid-3.5M，另外一个是在英文下面来做个预训练和 fine tuning 的数据集 COCO+VG+CC。试验发现，在引入难样本课程学习方法之后，可以为文本视频检索的 r@sum 目的带来 5% 左右的优化。

以上引见的是人工形式来指定对难样本的关注度，这一形式不够智能化，要求做超参数的调整。咱们宿愿让模型能够自顺应地学习对难样本的关注度，因此设计了一种自顺应方法，接上去引见的 DMAE 和 NegNCE 的方法宣布在 2023 年的 ACM Multi Media 上。经过这种方法，可以带来 R@SUM 3.1% 的优化。

DMAE 是双模态的 attention 增强的模块，它的外围是宿愿能够找到尽或许多的难例，关键是驳回两个思绪，第一个是扩展便捷样本和难样本之间的边界。如上图右侧，从 b 到 c 是在 NegNCE 的基础上参与 DMAE，可以看到经过 DMAE 的难例开掘，可以引入更多的难负例扩展决策边界，进而优化模型对样本的区分度。NegNCE 的外围思维是把这些难样本所有都找进去后，看哪些难样本是真正要求去关注的，由于这些难样本，有或许之前的 infoNCE 的 contrastive loss 都曾经处置了，但是还有那些处置不了的宿愿能够经过加一个辅佐的 NegNCE loss 到训练目的外面，让模型灵活地关注这些难样本。

传统的 infoNCE 更多的是关注正样本，把正样本拉近，把负样本推远，并没有关注难的负样本，引入 NegNCE 可以让模型显式地去关注难样本，在上图的 case 中难的负样本，在决策边界上是很近的，它只管是负样本，但是它跟 Anchor 的相似度或许会比正样本更近。NegNCE 能够把这样的负样本逐渐推远。DMAE 会开掘出更多的这种负样本，把更多的负样本囊括在模型 loss 所思考的范围之内，即DMAE 开掘更多负样本，NegNCE 去努力区分负样本，经过这两个 loss 的配合，让模型能够在训练环节中自顺应地去关注难样本。

DMAE 关键有两方面的上班，一个是在文本侧，由于文本句子表白蕴含很多冗余性，所以宿愿能够让模型更多地关注到句子中关键的词。这些关键词首先得是名词、动词和描画词这些比拟关键的词，其次是出现的词频，即相关于词频更低，这样的代表词有更多的消息量。把这两个结合在一同，来挑选出文本的关键词，对这些关键词，会在做文本 attention 的时刻给予更高的权重。

另一方面的上班在视觉侧，视频和图片最大的区别在于视频中会蕴含很多关键帧，关键帧之间是蕴含必定冗余性的，也就象征着在时序上临近的这些帧或许在语义上甚至视觉上都是十分相似的。这象征着假设帧存在难样本，那么跟它比拟相似的另外一帧也存在很多难样本。咱们把这两类难样本求并集，兼并之后的难样本汇合就是帧和另外一帧跟它比拟相似的帧形成的难样本汇合。

详细的成功形式为，在计算视频跟文本相似度矩阵之后，会做文本侧的加权，文本侧的权重关键是依据单词的词性、词频来确定。另外，视频侧的权重关键是把视频关键帧跟它自身来做相似度矩阵。接上去保管 top 的 score，比如关于每一帧找跟它最相近的帧的难样本，也作为帧的难样本，经过这种形式构建相似度矩阵，在相似度矩阵下面可以开掘出更多的难例。越难的样本在相似度矩阵上最终失掉的score 就会越高。

当开掘更多的难例之后，咱们宿愿模型在训练环节中能够去灵活区分这些难例，由此显式地引入了 NegNCE loss。传统的计算视频跟文本的相似度驳回 InfoNCE loss。InfoNCE 的分子是正样本，分母是一切的负样本，InfoNCE 在拉近正样本和推远负样本环节中把正样本和负样本同等看待。

在训练环节中，NegNCE 首先会判别哪些是负样本。关于相反的文本而言，假设负样本的视频跟文本的相似度比正样本视频更大则以为是难例。经过这种形式，在训练环节中，咱们可以把一切负样本比正样本相似度更高的视频-文本 pair 所有开掘进去，并加上辅佐 loss(如上图公式(6))，专门来做难的负样本的开掘。辅佐 loss 和之前的 InfoNCE loss 经过加权相加。咱们可以经过调整r2 的权重来调整模型在训练环节中对难样本的关注度。

咱们经过试验验证了下面提到的难样本战略。DMAE 关键是用来扩展难样本的范围，NegNCE 让模型在扩展难样本范围之后更多的去关注对模型而言比拟难区分的负样本，可以看到用 DMAE 参与 NegNCE 之后，全体的效果是有优化的。把这两个组件合在一同，全体对 r@sum 目的有 3% 的优化。

接上去引见第三方面，引入细粒度，也可以极速优化视频文本语义检索的效果。在试验中，引入细粒度可以对 R@Sum 目的优化 2.8%。

视频-文本语义检索的已有上班缺乏对较细语义粒度的区分。比如如今罕用的 Pairwise loss 更多是经过做二值量化来判别视频和文本之间能否相似，属于粗粒度的识别，实质上是一个二分类。另外一类基于 Triplet loss 这种方法，并不做相关或不相关二分类，而是建模偏序相关，可以让模型在更细粒度上建模语义相关性。但是怎样去构建不同语义粒度的视频-文本 pair 呢？这个是咱们的外围应战。

为了构建不同语义粒度的视频-文本 pair，咱们驳回生成的方法生成这样偏序 pair。详细的思绪是自创在单模态文本上的 CSE 上班。扩展到多模态上时，假设完整的文本和完整的视频是齐全相关的，那么在视频下面假设要去掉一些关键帧，那么视频的相关性会逐突变弱。所以构建的偏序相关是：文本跟完整的视频之间的相关性> 文本跟去掉关键帧之后的视频的相关性。相同，关于文本侧而言也是一样的：视频跟文本之间的相关性 > 视频跟文本去掉关键词之后的相关性。基于这个思绪，咱们生成不同语义粒度的这种相关性的 pair。在生成偏序 pair 上另一个和单模态的不同点是，关于单模态，或许更多的只思考文本或许图片自身的语义。而关于多模态，在构建偏序对时，实践上是要看到文本才干够确定视频中的哪些帧关键，哪些帧不关键；关于文本侧也是一样，看到视频之后才干确定这些文本描画中哪些词是关键的，哪些词是不关键的。

基于这样的观察咱们提出了两个模块，第一个是跨模态的 token 关键性的预测，算法外围是经过给定一个模态输入，预测另一个模态的 token 关键性。比如给定视觉侧全局消息输入，让模型预测文本 token 的关键性，即文本中的哪些词是关键的；关于视觉侧也是一样，给定文本的总体的表征来预测视觉的哪些 token 是关键的。经过这种形式，来选出关键的文本 token 和视觉的 token，并进一步把这些关键的 token 做 mask，经过 mask 生成的样本就比 mask 之前的完整文本或视频跟另一个模态的相关性更弱。经过这种形式，咱们就可以生成有偏序相关的 triplet 三元组。

详细的成功分为两个阶段，第一个是生成偏序的样本，首先要预测对另外一个模态而言，哪些 token 是更关键的；预测到更关键的这些 token 的权重之后要确定 mask 掉哪些 token 对文本的 token 语义影响是最大的。第二步把语义影响最大的这些 token 间接 mask 掉就生成了偏序的 pair。相似于 Triplet loss 的思维，mask 之后的样本与另外一个模态之间的相关性会变弱。Triple>

咱们经过试验验证了引入细粒度的详细效果。引入了细粒度 TPM-CL 的方法后，相比之前，在 MSRVTT R@sum 目的有约 2.8% 的优化。也可以跟 DMAE 合用，经过 DMAE 扩展引入更多的负样本，TPM-CL 是让模型在训练环节中更多地关注难以区分的负样本，这两个方法结合带来了 4.4% 的优化。

小结一下，极速优化视频-文本语义检索的第三个方法是引入细粒度，详细在这方面做的上班是偏序样本生成，以及引入偏序损失。

以上就是对视频-文本语义检索三个关键优化方法的引见。接上去将引见视频多模态在视频-视频同源检索方面的运行。

视频-视频同源检索的外围是如何高效低老本地成功视频侵权检测。咱们在该畛域提出了一种自研的端到端的片段婚配定位技术，能够迅速成功视频到视频的版权检索，相较于传统方法，可节俭 85% 的存储空间，并在视频侵权检索场景中减速 18 倍。在检索效果方面，F1 相比已有的方法，可提高 2.78%。

1. 视频到视频同源检索的应战

视频到视频同源检索所面临的应战关键包括：

因此，要成功视频到视频的同源检索，外围在于：如何优化检索的准确度，以及如何降落老本。

传统的视频对视频同源检索方法不可满足需求。以 MultiMedia09 的钻研为例，他们驳回时序网络，基于灵活布局的方法寻觅侵权片段的最长门路。其好处在于无需监视且定位较为准确，但其缺陷是鲁棒性较差，尤其是面对减速或减速，或许时域和空域复合变换的状况，其效果难以到达预期。还有一些上班是基于深度学习模型，经过基于特色相似度矩阵的形式处置，这种方法将视频能否侵权的疑问转化为待检测视频与侵犯版权视频的二分类，行将视频特色整合后，若侵权则标志为标签"1"，反之则标志为标签"0"。这种方法不可成功视频的侵权检测的片段定位。

基于现有算法不可满足需求，而视频侵权检测关于业务意义严重，咱们自主研发一套侵权检测框架，以处置上述效果和老本疑问。

框架的全体设计如上图所示。

首先，对视频底库启动处置，对视频抽取关键帧，而后对关键帧启动帧级特色提取，并存储在特色库中。在处置查问视频时，相同会对查问视频启动关键帧抽取和特色提取，而后，经常使用查问视频与底库启动特色婚配，成功婚配后，启动精细排序，最终判别的查问视频能否存在侵权。

外围技术包括以下两个层面：首先是如何准确抽取视频的关键帧，这实践上是降落老本要求。假设咱们将视频中的每一帧所有保管上去，存储老本会相对较高。因此等候能经过关键帧来代替整段视频，从而降落视频在版权检索环节中的老本。其次是如何迅速定位视频侵权部分的疑问，此环节触及到准确率与老本的平衡。例如，刚刚所提到的 ICCV 的钻研，关键触及的 Pairwise 式的视频侵权检测，尽治通常上可行，但在实践业务中不可成功，由于其侵权比对老本过高。

咱们提出的自研处置方案区分是自监视的 SKE 方法和检测定位的 SPD 模块。接上去将详细论述这两种方法。

首先来引见 SPD 模块。该模块的外围思念是，在提供候选视频以及查问视频后，将候选视频和查问视频的关键帧的特色启动两两对比，构建出相似性矩阵。在特色相似性图上可以看到部分相似度值会更高，且具有必定的延续性。基于这一观察，咱们将视频之间或许存在片段婚配的疑问转化为在特色相似图上启动侵权形式 Pattern 目的检测的操作。这也就象征着咱们可以构建侵权相似度图训练集，同时在特色相似度图上标注出侵权的起止期间，便可在特色相似度图上间接训练 YOLO 的目的检测模型，从而成功极速识别。判别候选视频能否与底库中的任何一个视频，以及视频的某个片段存在相同之处，进而判定该视频能否存在侵权行为。

SPD 外围模块与业界干流的灵活布局相比，具有更杰出的性能表现，能够提速 18 倍。这关键得益于 YOLO 的极速目的检测。此外，针对较为复杂的场景，例如那些经过加减速处置的侵权，以及经常使用滤镜处置的侵权，相比于业界干流方案均有清楚的优化。

侵权检测的第二个外围义务就是降落老本。其外围思维是用关键帧取代传统的平均帧。相较于平均帧，关键帧的数量通常会紧缩约 70% 至 80%，因此，相应的存储空间也会大幅度地缩小。关键帧检测作为关键帧抽取模块的外围内容，首先要求对视频启动预处置，将其一切帧在同一期间内铺平，拼接成一张大的图像。接上去是对大图做相似于图像宰割的义务，目的是输入每一像素对应确实切类别。在咱们的场景中，每一像素实践上代表着一个关键帧，所以目的是输入每一帧成为关键帧的或许性。这样就可以挑选出视频中最能彰显视频特色的那部分帧。

假设要将上述关键帧抽取模块与侵权定位模块结合经常使用，那么外围就在于挑选出关键帧，但是，间接应用关键帧抽取模块并不是可导的，因此咱们先输入关键帧的概率 mask，同时构建一个平均帧的 mask，而后将这两个 mask 启动加法运算。最后，经常使用 mask 对密集采样的平均帧的特色相似图启动点乘，点乘后失掉的特色相似图就可以与 SPD 模块联结在一同训练。经过这种形式，咱们可以确保 SPD 模块的梯度能灵活回传给关键帧抽取模块，同时关键帧抽取与 SPD 模块可以独特启动端到端的联结训练，形成一个完整的端到端的模型，而不用像传统的方法那样先训练关键帧再训练其它模块。

将关键帧抽取和 SPD 启动联结训练比独自经常使用 SPD 有着清楚的优化。此外，在大规模的数据集上测试后发现，无论在老本上还是存储需求上，都有清楚的缩小。可以看到，与独自经常使用 SPD 相比，存储关键帧能够节俭 85% 的存储量。同时，在侵权检测效果方面，可以经常使用更少的关键帧到达更好的效果，全体性能优化 2.78%。

总体来回忆一下本次分享的内容。关键引见了视频多模态检索的两个方向，一个是视频-文本语义检索，另外一个是视频-视频同源检索。

针对视频-文本语义检索提出了三个可以极速优化视频-文本检索效果的方法：首先是经过视频预训练，可以带来 24.5% 的优化；第二是经过关注难样本，带来了 8.1% 的优化，其中难样本分为两种，一种是基于人工指定模型在不同训练阶段，关注不同的难样本，另外一种是让模型在训练环节中自顺应地去学习对难样本的关注度；第三是引入细粒度，可以带来 2.8% 的优化，关键触及如何生成偏序样本，以及引入三元组偏序损失，对细粒度语义启动建模。

视频-视频同源检索部分引见了自研的端到端的片段婚配定位方法，可以节俭 85% 的存储，侵权检索减速 18 倍，检索 F1 相比于经常使用平均帧的效果有大幅优化。

上述所提到的上班是蚂蚁智能引擎多模态认知团队在过去一年地下的钻研成绩，关键触及到视频语义检索以及视频到视频的版权检索方面的钻研停顿。若对此感兴味，欢迎进一步了解咱们的上班。同时，咱们也赤诚约请更多的同窗参与咱们，独特携手推进相关上班的展开。

Q1：关键帧要求先标注数据，再训练宰割模型吗？

A1：关键帧模块有两种经常使用形式，假设把模块独自抽取进去的话，它实践上相似于宰割模型，这是要求去标注的。比如可以人工标注哪些帧是关键帧，而后独自训练模型，用模型从视频中抽取关键帧。

但假设要驳回这里所用的端到端的形式的话，把关键帧的模块跟下游义务相似帧比对，这里的下游义务，更多的是侵权定位模块，比如两个相似视频比对下义务是两个相似帧比对，用这种形式成功自顺应端到端的形式，依据义务的个性去挑选关键帧，这时刻就不要求去标注了。

Q2：如今有没有 hugging face 下面现成的关键帧提取的模型？

A2：目前模型还没有开源，但是有开源方案，目前在走外部的开源流程。

Q3：多模态的 embedding，到下游介绍场景的时刻往往没有效果，有什么好的处置方法吗？

A3：或许咱们愈加偏差于参考前面视频文本语义检索部分的内容。在语义检索层面，将文本语义检索详细用在搜查或许是介绍场景中，会有几个单干严密的环节。首先在搜推的召回阶段，可以用参与视频文本链路，去参与召回阶段的召回。其次，在排序阶段，可以引入经过视频-文本预训练之后的视频和文本的特色，参与到排序的特色外面。第三，在精排阶段，更多的是要求做视频的打散。这时刻，可以用训练的embedding 来做打散，假设效果不太好，或许与详细的业务场景有相关，或许与怎样用这种多模态预训练表征有相关，或许要明白详细的场景、详细的疑问才干做出解答。

Q4：刚才演讲的环节中提到节俭了存储，关键数据都存在什么样的存储介质里？

A4：假设是小规模的视频版权检索的话，可以间接存储在比如 NAS 盘，就是普通的硬盘下面。假设是大规模的存储，会把这些特色间接存储在向量检索的数据库。经过数据库来存储，存储量会相比 NAS 更节俭，但是用关键帧的话，会带来十分大的存储空间的节俭。

Q5：关键帧的处置方案是不是也可以用在视频到视频的翻译外面？不同语种的翻译。

A5：视频至视频的翻译详细是指将英文视频转换为相应的 ASR 语音译文。

视频中语音内容的翻译，其关键之处在于不只音轨能够婚配，而且音轨与口型也能够分歧对应。由于不同言语之间的语速实践上存在差异，若驳回传统翻译方法，譬如中文转为英文，或许英文转回中文，其所需期间也会因此有所不同，这就要求启动必定水平的剪辑上班。换一下角度来看，我以为这项技术实则是处置了两个视频间的对齐疑问。关于我所述的翻译场景，我虽了解并不深化，但假定确实存在视频片段间的对齐疑问，那么我以为这种方法应可宽泛实用。

Q6：关于团队招聘状况可否详细引见？

A6：衷心感谢您对咱们团队的亲密关注。咱们是蚂蚁智能引擎多模态认知团队，咱们一直努力于招聘人才，目前正在启动中的招聘涵盖了多个畛域，不只限于当天详细引见过的开展方向。咱们关键的钻研方向包括多模态大模型、视频大模型以及版权检索等。总的来说，咱们的上班关键可以分为两大板块：视频处置和图文处置。在图文处置方面，咱们重点关注多模态和大模型；而在视频处置方面，咱们专一于实时性和视频文本的语义检索以及视频到视频的版型检索等。关于这些畛域有浓重兴味或许相关阅历的同窗们，欢迎随时向咱们发送您的简历，咱们的 recruitment base 位于杭州和北京，咱们在这两地的团队都在热烈欢迎您的参与！

Q7：提取视频特色指用视觉输入吗？

A7：在此论述的视频个性的提取，若指的是例似乎源检索内的视频特色，其实践操作流程是：首先，咱们会在视频中抽取出帧级别的关键帧，并对这些关键帧启动特色抽取。关于此前提及的视频-文本预训练视频的特色抽取，其环节或许是间接针对视频级别启动的，相似于 video swing 模型，间接产出整个视频的表征。因此，这两项上班所驳回的视频个性抽取或许存在差异，一个更关注于帧级别的特色抽取，另一个则并重于整个视频级别的抽取。但是，无论哪种形式，都要求借助视觉输入。

Q8：视频特色是如何经过融合关键帧的特色提取到的？

A8：这是由于在当天的分享里实践上都是视频帧级别消息，视频片段作为其中关键组成部分，与其底层库及视频关键帧之间的婚配，独特构建了相似于相似度的矩阵特色向量矩阵。但是，此种形式实践上并未成功对全体视频及其关键帧特色至整个视频特色的聚合环节。

实践上罕用的聚合方法中，既包括无参数方法，如基于关键帧特色启动 LV 级 pooling 操作，亦有参数化方法，如在下层参与暂时编码器，把视频帧的特色作为相似于Transformer 的标志作为输入，应用 Transformer 启动延续建模，或许触及的参数化方法。此外，亦或许包括相似于时序视频建模方法的战略，例如 Token Shift 方法，这些形式都可将帧级别特色转化为视频级别特色。这些方法均已失掉通常与尝试，且发生了必定的功效。

Q9：应该了解为视频的特色，是整个视频的特色，或许是人为赋予的，但是真的特色，即实质上的特色依然得以表现。是这样了解吗？

A9：是的。实践操作则更多地受疑问处置粒度的影响，如何设计视频特色呢？例如在视频文本语义检索畛域，其所关注的外围疑问便是如何从文本角度启动视频检索？由于将整段视频视为一个全体，因此该畛域的钻研会更偏差于视频总体出现的表白形式，即如何展现视频内容？再以视频到图像检索为例，由于该形式更器重图源检索，例如在版权检索等场景中，检索结果或许蕴含了 query 的视频片段，而这些片段与底库中的某一片段或许存在侵权危险。因此，该畛域的钻研更并重于视频片段或更宏观的视频帧的表白。因此，在这种状况下，视频特色的关注点并不在于整个视频的embedding 表白，而是视频帧的表白。咱们还是应依据详细疑问启动详细的剖析。

Q10：视频的 ASR 和关键帧的 OCR 消息有经常使用吗？

A10：有经常使用的。例如，在同源检索畛域内，实践上并不触及到少量的文本消息；而在语义检索方面，比如说处置视频数据时，首先咱们要求引见 OCR（光学字符识别）技术。普通状况下，咱们在启动语义检索操作时，会构建视频与文本的配对相关。当视频缺乏全体性的视频描画时，视频与文本的配对通常是从 ASR 中失掉的。将 ASR 的起始期间和结构期间与其对应的视频片段作为 ASR 文本所对应的视觉输入。同时，咱们还会应用 ASR 所对应的视觉片段中的关键帧启动 OCR，提取出 OCR 的文本，并参与到 ASR 当中。因此，可以说，ASR 和 OCR 独特形成了文本的内容。但是，值得留意的是，假设将 OCR 文本参与到这部分文本中，或许会出现一些疑问。由于关键帧中的 OCR 文本往往相似度较高，或许要求采取相似于视频级别的 OCR 方法，启动 OCR 文本的去重。

Q11：刚才回答的这一部分疑问，都是在视频-文本预训练这一部分做的吗？

A11：是的。实践上，这方面的钻研不只是局限于视频-文本预训练，还触及到视频文本语义检索。经常使用何种文本，咱们刚才讨论的，都是如何在模型或许数据的层面，去提高视频文本与检索效果。实践上，还有一个关键的角度是如何构建文本，以便文本更能与视频相关联，例如，文本可以起源于视频的题目，比如整个视频的题目，也有或许是视频的封面描画，还有或许是视频中对应的片段所对应的智能语音识别（ASR），或许是视频中关键帧的光学字符识别（OCR），这些都有或许与视频亲密相关。详细成功还要求思考详细的业务场景，例如，假设您计划尝试应用视频中的文本启动视频检索，那么 OCR 无疑是必定蕴含在文本内的。

Q12：问 ASR 普通会蕴含 BGM 一类的噪音是怎样过滤的？是用 Facebook 的库吗？

A12：咱们所设计的噪声过滤模型，一方面，具有 BGM 识别的弱小配置，这部调配置曾经有成熟的开源模型可以经常使用。另一方面，即使模型未成功过滤掉噪音，其实也是无妨的，由于该模型的 BGM 普通为歌词。关于纯音乐类型的 BGM，其实它的 ASR 并不会输入任何文本。能够输入文本的背景音普通都是歌词，但是歌词与视频内容的关联性，通常可以经过训练图文关联性的模型启动调整，例如相似于中文 clip 这样的模型就可以将其有效地过滤掉。

Q13：视频检索触及到线上实时 Infer 吗？是离线做 T+1 的，还是实时流的？假设线上实时 infer 的话，这么大的模型是怎样扛住的？

A13：可以实时 Infer，以视频文本语义检索为例，经过有效的训练后，咱们可以应用视频在入库时，经过训练过的模型，来失掉视频的全体 embedding。而后，咱们便可以将这个 embedding 存储在向量检索的数据库中。关于文本检索来说，通常的形式就是在线查问文本。咱们可以去部署一些较为轻量化的方案，例如，咱们将文本方面的模型启动轻量化处置，驳回量化解释和增强流等方法，以消费出与视频部分相婚配的轻量级模型。在实践检索中，咱们只有要运转这个轻量级的模型，实时提取出文本的表征，接着习气于之前曾经存储了视频向量的检索底层库，启动量化检索即可。关于检索来说，有很多可以优化速度的手腕，例如基于 faiss 等向量库实事实时的检索。

Q14：请问你们平时用到的向量数据库是哪个？

A14：咱们外部经常使用了一款名为千寻的检索平台，这并非开源产品。但是，其成功原理与我之前所提及的 Facebook 开源的向量检索数据库 faiss 原理基本相反。

关注微信

上一篇：经常使用CLIP和LLM构建多模态RAG系统

下一篇：为什么是下一代RAG的标配提早交互模型

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：https://duobeib.com/diannaowangluoweixiu/4318.html

蚂蚁多模态团队在视频多模态方向的技术探求

1. 视频到视频同源检索的应战

Q1：关键帧要求先标注数据，再训练宰割模型吗？

Q2：如今有没有 hugging face 下面现成的关键帧提取的模型？

Q3：多模态的 embedding，到下游介绍场景的时刻往往没有效果，有什么好的处置方法吗？

Q4：刚才演讲的环节中提到节俭了存储，关键数据都存在什么样的存储介质里？

Q5：关键帧的处置方案是不是也可以用在视频到视频的翻译外面？不同语种的翻译。

Q6：关于团队招聘状况可否详细引见？

Q7：提取视频特色指用视觉输入吗？

Q8：视频特色是如何经过融合关键帧的特色提取到的？

Q9：应该了解为视频的特色，是整个视频的特色，或许是人为赋予的，但是真的特色，即实质上的特色依然得以表现。是这样了解吗？

Q10：视频的 ASR 和关键帧的 OCR 消息有经常使用吗？

Q11：刚才回答的这一部分疑问，都是在视频-文本预训练这一部分做的吗？

Q12：问 ASR 普通会蕴含 BGM 一类的噪音是怎样过滤的？是用 Facebook 的库吗？

Q13：视频检索触及到线上实时 Infer 吗？是离线做 T+1 的，还是实时流的？假设线上实时 infer 的话，这么大的模型是怎样扛住的？

Q14：请问你们平时用到的向量数据库是哪个？

猜你喜欢

热门标签

随便看看

TCP发送窗口接纳窗口以及其上班原理

I 如何发现 PostgreSQL 和中那些消耗 CPU

如何改良DevOps上班流

安保无大事安保防范从Nginx性能做起程序员安保规范

斯坦福学者提出Edu

热门资讯

阅读排行

Linux 内核模块咱们离不开的

一文读懂微服务设计形式

张诚的团体主页

2027年AI用电量相当于某些国度的电力消耗水平钻研显示

小米手机是雷军的特洛伊木马

关注我们

蚂蚁多模态团队在视频多模态方向的技术探求

1. 视频到视频同源检索的应战

Q1：关键帧要求先标注数据，再训练宰割模型吗？

Q2：如今有没有 hugging face 下面现成的关键帧提取的模型？

Q3：多模态的 embedding，到下游介绍场景的时刻往往没有效果，有什么好的处置方法吗？

Q4：刚才演讲的环节中提到节俭了存储，关键数据都存在什么样的存储介质里？

Q5：关键帧的处置方案是不是也可以用在视频到视频的翻译外面？不同语种的翻译。

Q6：关于团队招聘状况可否详细引见？

Q7：提取视频特色指用视觉输入吗？

Q8：视频特色是如何经过融合关键帧的特色提取到的？

Q9：应该了解为视频的特色，是整个视频的特色，或许是人为赋予的，但是真的特色，即实质上的特色依然得以表现。是这样了解吗？

Q10：视频的 ASR 和关键帧的 OCR 消息有经常使用吗？

Q11：刚才回答的这一部分疑问，都是在视频-文本预训练这一部分做的吗？

Q12：问 ASR 普通会蕴含 BGM 一类的噪音是怎样过滤的？是用 Facebook 的库吗？

Q13：视频检索触及到线上实时 Infer 吗？是离线做 T+1 的，还是实时流的？假设线上实时 infer 的话，这么大的模型是怎样扛住的？

Q14：请问你们平时用到的向量数据库是哪个？

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号