微信等提出多模态大言语模型EE 数据高效和计算高效全都要!中科大&amp

  • 电脑网络维修
  • 2024-11-14

论文链接:

亮点直击

在多模态钻研畛域,许多钻研应用少量图文对启动模态对齐学习,将大型言语模型(LLMs)转变为多模态LLMs,并在各种视觉言语义务中体现杰出。现有的方法关键分为两类:基于自留意力的方法和基于交叉留意力的方法。虽然基于自留意力的方法由于其便捷的MLP架构具有较高的数据效率,但由于将视觉和文本token衔接为LLM的输入,通常在计算效率上较低。相反,基于交叉留意力的方法虽然由于额外的可学习参数而数据效率较低,但经过防止LLM的长序列输入体现出较高的计算效率。为处置这些掂量,本文引入了 数据高效和计算高效的多模态大型言语模型(EE-MLLM) 。在不引入额外模块或可学习参数的状况下,EE-MLLM成功了数据和计算效率。详细来说,本文将MLLM中的原始自留意力机制修正为复合留意力机制。该机制有两个关键特色:1)消弭视觉token外部自留意力的计算开支以成功计算效率,2)重用LLM每一层的权重以促成视觉和言语之间的有效模态对齐,成功数据效率。试验结果标明,EE-MLLM在一系列基准测试中体现杰出,包括诸如MMBench和SeedBench等通用数据集,以及如TextVQA和DocVQA等细粒度义务。

方法

模型结构

EE-MLLM 包括一个视觉编码器、一个作为投影器的两层 MLP,以及带有复合解码层的大型言语模型(LLM)。本文提出了一种复合留意力机制,并为 EE-MLLM 设计了一个复合解码层,以成功数据效率和计算效率。复合解码层由一个对齐器和一个复合留意力模块组成。

复合留意力模块。 原始的自留意力机制包括视觉token之间的自留意力、文本token之间的自留意力,以及文本token和视觉token之间的交叉留意力。本文观察到视觉token之间的自留意力是多余的,要素有两个:

这可以被视为一个没有留意力机制的解码器块。

计算开支剖析

试验

试验细节

模型性能。 本文驳回 Vicuna-7b-v1.5作为本文的 LLM,并经常使用 SigLIP作为视觉编码器。详细来说,SigLIP 从 Idefics2 初始化,该模型允许灵活分辨率,最大可达980X980 。投影器由一个两层的 MLP 组成,与 LLaVA 相反。

评价基准

通用基准

细粒度基准

与最先进模型的比拟

通用基准测试。 在下表2中,本文将EE-MLLM与各种最先进的MLLM 在八个通用基准上启动了比拟。这些基准测试评价了MLLM的综合才干,包括了解和感知,以及幻觉的严重水平。这些要素独特反映了MLLM在事实场景中的泛化才干和实用性。EE-MLLM在通用基准测试中与最先进的MLLM体现相当。详细来说,EE-MLLM在MMBench中取得了70.4的得分,在MME中取得了1528.1的得分,这些分数清楚高于雷同允许高分辨率图像输入的LLaVA-v1.6。这标明EE-MLLM具有综合的感知和推理才干。此外,EE-MLLM在CCBench和SeedBench上也取得了可喜的效果。

细粒度基准测试。 在下表3中,本文在七个细粒度基准上启动了评价。这些基准测试要求MLLM具有杰出的视觉感知才干,由于它们须要探求图像中的细粒度消息来回答疑问。在传统的VQA基准测试中,例如TextVQA、ChartQA和DocVQA,EE-MLLM体现十分杰出,相较于雷同允许高分辨率的LLaVA-v1.6,在TextVQA上高出4.6分,在ChartQA上高出13.0分。在专门设计用于评价MLLM OCR才干的OCRBench中,EE-MLLM比LLaVA-v1.6高出4.2分。这些结果标明,虽然EE-MLLM清楚缩小了与视觉token相关的计算开支,但它依然有效地坚持了模型的细粒度才干。

推理速度比拟

虽然EE-MLLM在FLOPs方面体现出了清楚的缩小,但在实践场景中,通常会在部署时驳回KVCache和Batch Inference等先进技术。因此,有必要在这些技术下启动推理速度的比拟。本文在单个NVIDIA H800上启动了推理速度的比拟。输入图像的分辨率设置为980X980,生成的tokens数量从2到256不等。本文在下图4中展现了EE-MLLM与LLaVA的速度比。本文的钻研发现,当生成8个tokens时,EE-MLLM的推理速度是LLaVA的三倍。但是,随着生成tokens数量的参与,速度比降低。当生成64个tokens时,EE-MLLM的推理速度是LLaVA的1.6倍。产生这种现象的要素在于本文的EE-MLLM关键在预填充阶段缩小了计算老本,该阶段计算视觉tokens的KV缓存。第一个token的生成比基于自留意力的方法(如LLaVA)更快。但是,推理速度的长处在第一个token之后减小。详细来说,关于两个输入图像,EE-MLLM的推理速度简直是LLaVA的四倍。这清楚地标明,EE-MLLM在多图像输入场景中(包括交织的图像-文本对话和多模态高低文学习)清楚更高效。

EE-MLLM 的 GPU 内存开支

本文评价了EE-MLLM在预训练和微调阶段的GPU内存开支。雷同,本文在分辨率为336X336时,将EE-MLLM与LLaVA启动了比拟。本文在8×H800上启动试验,预训练的全局批量大小为256,微调时为128。

内存经常使用状况的比拟详见下表5。在预训练阶段,EE-MLLM的内存经常使用清楚较低,为32G,而LLaVA的内存经常使用为75G。在微调阶段,由于关键内存经常使用集中在可训练的LLM上,内存经常使用长处变得不太清楚,EE-MLLM消耗66G,而LLaVA-v1.6经常使用69G。

消融钻研

实施细节

依据LLaVA-v1.5,本文驳回Vicuna-7b-v1.5 作为本文的基础LLM。训练数据与LLaVA-v1.5分歧,包括预训练数据和监视微调数据。

与LLaVA的比拟

在下表4中,本文在相反的设置下比拟了EE-MLLM和LLaVA在普通和细粒度基准测试中的体现。关于分辨率为336X336的状况,本文经常使用CLIP-ViT-L-14作为视觉编码器,确保与LLaVA-v1.5齐全对齐。EE-MLLM在普通基准测试中体现与LLaVA相当。在细粒度基准测试中,EE-MLLM在分辨率为336X336时在AI2D和ChartQA上体现杰出,但在OCRBench和TextVQA上略逊于LLaVA。关于336X336分辨率的平均得分为47.1,是LLaVA的48.1的98%。关于分辨率为672X672的状况,本文经常使用SigLIP作为视觉编码器。如表4所示,EE-MLLM在AI2D和TextVQA上取得了相当的结果,平均得分坚持在LLaVA性能的98%。

对齐器的消融试验

在下表6中,本文评价了具有不同映射权重的对齐器变体。本文经常使用从Idefics2(Laurençon等人,2024)初始化的SigLIP在不同的输入分辨率下启动试验。本文移除了对齐器中的不同权重,并在分辨率为336X336下训练模型。对勾token示意在对齐器中经常使用的权重。

本文有三个发现:1)如第一行所示,移除整个对齐器会清楚降低多个基准测试的性能。详细而言,TextVQA的得分从46.1降至44.8,五个基准测试的平均得分从34.5降至33.5。这个结果突显了对齐器在将视觉特色与LLM特色空间对齐方面的有效性,使文本tokens能够经过因果交叉留意模块捕捉关键的视觉消息并处置疑问。2)当消融对齐器中的一般权重时,本文发现坚持结构更为关键。缺少V或O对低分辨率输入的影响相对较小,甚至在缺少V时体现略有优化。但是,当缺少FFN时,对齐器的结构不再相似于transformer块,造成清楚的性能损失。3)本文间接将输入图像分辨率提高到672X672,而无需额外训练,并比拟具有不同对齐器类型的变体。本文观察到,在高分辨率输入下,缺少V或O权重会造成细粒度基准测试(如TextVQA、ChartQA和DocVQA)产生清楚降低。这个发现标明在运行于高分辨率图像时,完整的对齐器是如许关键。

可视化

本文从BLINK 和RealWorldQA 中采样了四个示例,以评价下图3中架构变动的影响。第一个示例展现了EE-MLLM能够感知图像中的细粒度视觉高低文,例如交通讯号灯的色彩。第二和第三个示例强调了EE-MLLM了解物体位置的才干。详细而言,EE-MLLM可以准确识别吉他相关于桌子的位置以及狗的位置。最后一个示例提醒了EE-MLLM能够辨别视觉内容中的纤细差异。

论断

在本文中,本文从新扫视了多模态大言语模型的先前钻研,并将其分为两类:基于自留意力的方法和基于交叉留意力的方法。前者数据效率高但计算效率低,然后者计算效率高但数据效率低。为了在坚持计算效率的同时确保数据效率,本文为EE-MLLM提出了复合留意力机制,该机制结合了复合留意力模块以提高计算效率,以及对齐器以提高数据效率。本文在普通基准和细粒度基准上启动了片面试验,发现EE-MLLM在大少数基准上成功了最先进的性能。本文还评价了EE-MLLM在实践场景中的推理速度,结果标明EE-MLLM在推理方面具有清楚长处。

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5377.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号