木桶原理 CLIP系列模型如何补短板再更新 告别

  • 电脑网络维修
  • 2024-11-15

CLIP(Contrastive Language–Image Pre-training)模型自推出以来,在图像-文本跨模态了解和生成畛域取得了清楚成绩。但是,经典模型CLIP还是存在许多短板,对此,学界对CLIP模型的变革与增强还在继续启动中,宿愿经过变革CLIP模型架构、参与某些模块来补偿CLIP的才干短板, 始终优化其在跨模态、少样转义务中的泛化性能与实用性 。详细如下:

本期推送再次清点了CLIP模型架构还能如何变革,让咱们一同来看看吧!

GroupViT: 从文本监视中成功语义宰割

文章引见了一个名为 GroupViT(Grouping Vision Transformer)的模型 ,它是为了成功仅经过文本监视启动语义宰割的义务而设计的。GroupViT经过一个 分层的Transformer架构 启动视觉概念的逐渐分组,从较小的图像片段兼并成较大的任异常形的语义段。GroupViT首先将输入图像划分为多个不堆叠的小patch,并将每个patch线性投影到潜在空间,构成输入的image token。在 每个分组阶段 ,image token和group token经过Transformer层启动消息流传,经过自留意力机制(self-attention)聚合全局消息。每个分组阶段的末尾都有一个 grouping block ,担任将相似的image token兼并为更大的语义段(segment)。Grouping block经过计算group token和segment token之间的相似性矩阵来成功兼并。在Grouping Block中,经常使用Gumbel-Softmax操作和直通技巧(straight through trick)来启动硬调配,使得segment tokens能够明白地调配给不同的group tokens。为了训练GroupViT口头分层分组,模型驳回了特意设计的对比损失函数,包括原始的图像-文本对比损失和 多标签对比损失

相关于CLIP,GroupViT引入了 分组机制 ,准许模型智能地将图像区域分组为语义段,而CLIP是一个基于对比学习的模型,关键用于图像和文本的联结示意学习,并没有显式的分组机制。GroupViT还驳回了 分层的Transformer架构 ,能够处置任异常形的图像段,而CLIP通常处置的是固定大小的图像patch。此外,GroupViT特有的 Grouping Block模块 ,用于将图像tokens兼并为更大的语义段。最后,GroupViT经常使用了 多标签对比损失 ,经过从文本中提取名词并经常使用句子模板生成额外的文本标签,增强了模型对视觉分组的学习才干。

FFF:在对比性预训练中修复有缺陷的基础发生的视觉言语模型

文章提出了一种改良的对比性预训练方法,称为FFF(Fixing Flawed Foundations),旨在经过处置现有视觉-言语模型训练中的两个关键疑问来增强模型性能: 失误调配的负对(false negative pairs)和低品质及多样性无余的字幕(captions)

文章展现了FFF方法在图像识别(在11个数据集上平均提高了约6%)和图像检索(在Flickr30k上提高了约19%,在MSCOCO上提高了约15%)方面的清楚性能优化。总之,FFF方法经过处置负对调配失误和优化字幕品质与多样性,清楚提高了视觉-言语模型的预训练效果,并经过经常使用sigmoid loss作为训练损失函数,有效地利用了多个正对启动训练。

DreamLIP:带有长字幕的言语图像预训练

文章提出的DreamLIP模型成功了 从长题目中灵活采样子题目,并与图像的部分区域启动细粒度对齐

在多种下游义务上启动试验,包括图像-文本检索、语义宰割等,证实了DreamLIP模型相较于现有方法在细粒度示意才干上的分歧优越性。经过这种方法,DreamLIP能够充沛应用长题目中的消息,提高模型对图像内容的了解和示意才干,尤其是在零样本学习的场景下,展现出了弱小的性能。

DIVA:分散反应协助 CLIP 看得更清楚

对比言语-图像预训练 (CLIP) 长于跨畛域和模态形象放开环球示意,已成为各种视觉和多模态义务的基础。但是,最近的钻研标明, CLIP存在重大的视觉缺陷,例如简直不可区分方向、数量、色彩、结构等 。这些视觉缺陷也限度了基于 CLIP 构建的多模态大型言语模型 (MLLM) 的感知才干。关键要素或许是用于训练 CLIP 的图像-文本对具备固有的成见,由于缺乏文本的独个性和图像的多样性。这项上班提出了一种繁难的CLIP模型后训练方法, 该方法经过自监视分散环节在很大水平上克制了其视觉缺陷。 咱们引见了 DIVA,它经常使用 DIffusion 模型作为 CLIP 的视觉助手。详细来说, DIVA应用来自文本到图像分散模型的生成反应来优化CLIP的表征 ,仅经常使用图像(没有相应的文本),从而成功了 自监视学习

经过在MMVP-VLM基准测试上的试验,DIVA清楚优化了CLIP模型在细粒度视觉才干上的体现,并在多模态了解和宰割义务上提高了MLLMs和视觉模型的性能。总的来说, DIVA模型经过一个繁难而有效的自监视框架,经常使用分散模型的生成反应来优化CLIP的视觉示意,使其在视觉细节的感知上有了清楚的优化,同时保管了CLIP的原有长处。

CLIP-FSAR:小样本举措识别的原型调制方法

本文的指标是迁徙CLIP弱小的多模态常识,以处置由于数据稀缺而造成的原型预计不准确的疑问,这是 少样本举措识别 (Few-shot Action Recognition, FSAR)中一个关键疑问。文章提出了一种名为的原型调制框架,该框架由两个关键组件组成: 视频-文本对比物镜(Video-text Contrastive Objective)和原型调制(Prototype Modulation)

CLIP-FSAR框架经过这两个组件的协同上班,能够充沛应用CLIP模型中的丰盛语义消息,生成牢靠原型,并在少样本分类义务中成功准确分类。经过视频-文本对比物镜,CLIP-FSAR顺应于视频义务,并经过原型调制增强了对视频中举措类别的识别才干。

MA-CLIP:CLIP的多模态自顺运行于小样本举措识别

将大规模预训练的视觉模型(如 CLIP)运行于小样本举措识别义务可以提高性能和效率。应用“预训练,微调”范式可以防止从头开局训练网络,这或许既耗时又消耗资源。但是,这种方法有两个缺陷。首先,用于小样本举措识别的标志样本有限,因此 须要尽量增加可调参数的数量以减轻过拟合 ,这也会造成微调无余,从而参与资源消耗并或许破坏模型的狭义示意。其次, 视频的超时域维度应战了小样本识别的有效期间建模 ,而预训练的视觉模型通常是图像模型。为了处置这些疑问,本文提出了一种名为 CLIP多模态顺应 (, Multimodal Adaptation of CLIP)的新方法。

MA-CLIP设计为可以与任何不同的小样本举措识别期间对齐度量(如视频婚配器)一同经常使用,这参与了模型的通用性和灵敏性。由于适配器的轻量级个性和参数数量的增加,MA-CLIP在训练时愈加极速和高效,同时下降了训练老本。总的来说,MA-CLIP经过精心设计的适配器和文本疏导的原型构建模块,有效地结合了视觉和言语消息,提高了小样本举措识别的性能,同时坚持了模型的极速顺应性和低训练老本。

APE:并非一切特色都关键:经过自顺应先验优化增强CLIP的少样本泛化才干

现有的CLIP少样本泛化方法要么体现出有限的性能,要么存在过多的可学习参数。本文提出了 APE(Adaptive Prior rEfinement),这是一种为CLIP模型的预训练常识启动顺应性细化的方法,旨在提高CLIP在下游义务中的性能,特意是在小样本学习场景下。

APE和APE-T在坚持高计算效率的同时,成功了在多个基准测试中的最先进性能,特意是在16次拍摄的ImageNet分类义务中,APE和APE-T区分以少于第二佳方法+1.59%和+1.99%的平均准确率,并且具备×30更少的可学习参数。

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/9163.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号