一文读懂OpenGVLab带来的最新视觉预训练框架

  • 电脑网络维修
  • 2024-11-15

大模型技术论文始终,每个月总会新增上千篇。本专栏精选论文​重点解读,主题还是围绕着行业通常和工程量产。若在某个环节产生卡点,可以回到大模型必备声调​或许LLM面前的基础模型​从新阅读。而最新科技(Mamba,xLSTM,KAN)​则提供了大模型畛域最新技术跟踪。若关于具身自动感兴味的请移步具身自动专栏​。技术宅费事死磕AI架构设计。当然最关键的是订阅“鲁班模锤”。

在过去的十年中,ImageNet预训练的视觉模型清楚提高了计算机视觉水平,在各种视觉义务中始终取得打破。ImageNet的成功激起了人们进一步探求从头开局预训练视觉模型的更好方法。最近,预训练的重点已从手动注释数据转移到大规模的网络爬虫图像文本数据。这一转变的一个关键里程碑是CLIP,它应用的图像-文本对的数据比ImageNet大数百倍,在各种义务中提供出色的功能,并逐渐成为视觉模型预训练的干流方法。

基于这一趋向,人们对探求图像-文本交织的数据的兴味越来越大,这在互联网上更为广泛。与CLIP中经常使用的结构化图像-文本对不同,这种交织数据是自在格局和非配对的,规模更大,文本消息更丰盛。充沛应用这些图像-文本交织的数据关于进一步大规模改良视觉模型预训练是必要的。

1.一图读懂

这张图片完整的对比了新模型与CLIP的差异。(a)展现了来自CLIP的对比学习框架,而(b)展现了陈腐的LCL预训练框架。全体而言,与CLIP相比,LCL可以在训练视觉编码器的时刻经常使用图像和文本交叉的训练数据。值得留意的是这两个框架在训练终了的时刻,可以将其中的text-encoder或许经常使用的大模型摈弃。

(c)则是展现了多模态的增量训练环节,将训练好的视觉编码器有选用地解冻或微调,而后依照传统的训练模型启动。当然这个环节也是允许图像-文本的交织训练数据。但是,其关键指标是使预训练的视觉编码器和大言语模型坚持分歧。

钻研人员提出这种训练框架的思绪在于人造言语处置最近一项钻研标明,现代言语模型的成功源于将训练数据集紧缩为模型参数。这种紧缩学习也实用于多模态畛域,只是要紧缩的数据从结构化纯文本裁减到图像-文本交织的数据。由于图像是原始像素和非结构化的,通常蕴含不用要和无法预测的细节。这些细节与初级语义义务有关,应该在紧缩学习中摈弃。所以应该调整这种紧缩算法,以便于能够顺应图像数据的添加。另外文本-图像交织的学习数据的将会更好的提取语义形象。

全体而言,Latent Compression Learning是一个新的视觉预训练框架,旨在经过最大化因果留意模型输入和输入之间的互消息来启动有效的潜在紧缩学习。

两个随机变量的互消息(mutual Information,MI)度量了两个变量之间相互依赖的水平。详细来说,关于两个随机变量,MI是一个随机变量由于已知另一个随机变量而缩小的“消息量”(单位通常为比特)。互消息的概念与随机变量的熵严密关系,熵是消息论中的基本概念,它量化的是随机变量中所蕴含的“消息量”。

框架的外围现实是经过因果留意模型来成功潜在的消息紧缩学习。

因果留意模型通罕用于序列预测或生成义务,确保每个输入仅依赖于前面的输入

LCL 时的模型架构概览如上图所示。在交织的图像文本输入序列中,引入不凡标志 <BoI> 和 <EoI>,区分作为图像中视觉嵌入的开局和完结的不凡标志。原文驳回 Vision Transformer (ViT)作为视觉编码器,它输入一系列图像块并输入一系列潜在示意。这最为关键的是损失函数,也就是训练指标的设定。

目前提升指标可以合成为两局部:第一局部为对比学习,就是上图最下面的那根线,对比视觉“潜变量”和先前高低文的语义分歧性(对比的对象是<BOI>标识的输入)。第二局部为自回归预测:就是传统文本生成的对比,大文言就是将生成的字符和预期的字符比拟。综合两者的差异,反向的微和谐训练模型。

这两个训练指标相互补充,学习到的视觉潜变量既保管了可以从先前高低文中预测的消息,又蕴含了预测后续高低文所需的消息,从而成功了有效的视觉预训练。

2.潜在紧缩学习

自回归言语建模同等于紧缩学习。假定

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5914.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号