减少2.8%参数成功多项义务 基于MoE的通用图像融合模型

  • 电脑网络维修
  • 2024-11-14

图 1 不同融合义务的源图像对融合结果的主导强度变动

钻研背景与动机

图像融合的目标是将同一场景中不同传感器捕捉的多源图像的互补消息整合到单个图像上。这种形式理论被用于提取图片关键消息和提高视觉品质。

目前,普通的图像融合关键包括多模态、多曝光、多焦图像融合等。融合义务体现出不同的融合机制。多曝光图像融合(MEF)的重点是将具备多个曝光水平的图像序列转换成一个高品质的全曝光图像。每个源图像为融合的图像提供自己的光照和结构消息。可见红外图像融合(VIF)是一种多模态图像融合(MMF),旨在融合红外和可见模态的互补消息,发生鲁棒且消息丰盛的融合图像。红外图像提供更多的强度消息,而可见图像提供更多的纹理和梯度消息。多聚焦图像融合(MFF)的目标是从一系列局部聚焦的图像中生成一个全聚焦的图像。多聚焦融合图像的每个明晰区域理论只有要学习一个源图像。因此,可以观察到,MEF 和 VIF 义务是多源相对对等的融合,而 MFF 是多源位置较为极其的义务,对图像的某一区域而言,往往体现出极化的选用。

随着深度学习技术的极速开展,近年来图像融合畛域取得了很大的停顿,而现有的方法大多只关注繁多图像融合场景,理论为繁多义务驳回特定战略,如为某义务设计的复杂网络或义务特定的损失函数,造成不可间接运行在其余义务上。思考到不同融合义务的实质相反,即整合来自多个源图像的关键消息,最近提出的一些方法,试图经常使用一致的模型处置多种融合义务,构建通用的图像融合。但是,这些方法要么有主导义务偏向,要么为了多义务特性而就义特性,造成次优的功能。这促使咱们探求一个更兼容的融合范式,它可以自顺应地灵活地兼容不同的融合场景。

为了处置这一应战,遭到预训练基座模型弱小的特色示意才干的启示,咱们引入了基座模型作为一个解冻的编码器来提取多源图像的互补特色。与大少数现有方法不同的是,咱们自创了混合专家(MoE)的思维,将每个专家作为一个高效的微调适配器,基于基座模型口头自顺应视觉特色揭示融合。义务特定的路由网络定制这些适配器的混合,为不同的源生成义务特定的融合揭示,构成一种新的义务定制混适合配器(TC-MoA)架构。另外,咱们设计了互消息正则化来解放融合揭示,从而保障了对不同起源的互补性。值得留意的是,融合揭示具备清楚的义务偏向和模态主导强度差异。如图 1 所示,MFF 的揭示比 VIF 和 MEF 的色差更大,说明特色选用在长处模态的强度偏向上具备更多的双极性。咱们的模型有效地感知了繁多模型中不同融合义务之间的融合强度偏向,因此与更宽泛的融合义务相兼容。

少量的试验验证了咱们在通用图像融合方面的优越性,包括多模态、多曝光和多焦点融合。更关键的是,咱们的 TC-MoA 甚至对未知的融合义务显示出了发明性的可控性和泛化性,充沛展现了咱们在更宽泛的融合场景中的后劲。

关键奉献

外围方法

如图 2 所示,给定一对源图像

,网络整合来自不同源的互补消息,取得融合图像

。咱们将源图像输入 ViT 网络,并经过 patch 编码层取得源图像的 Token。ViT 由一个用于特色提取的编码器和一个用于图像重建的解码器组成,这两者都是由 Transformer 块组成的。

在编码器和解码器中,每

个 Transformer 块拔出一个 TC-MoA。网络经过这些 TC-MoA 逐渐调制融合的结果。每个 TC-MoA 由一个特定于义务的路由器银行

,一个义务共享适配器银行

和一个揭示融合层F组成。TC-MoA 包括两个关键阶段:揭示生成和揭示驱动的融合。为了便于表白,咱们以 VIF 为例,假定输入来自 VIF 数据集,并经常使用G来示意

图 2 TC-MoA 的总体架构

揭示生成 。首先,取得后续处置的多源特色。将第 j 个 TC-MoA 之前的网络结构定义为

,并提取揭示生成特色定义为

。咱们将

启动特色降维,得四处置后的多源特色

,如下:

而后,依据 Φ 所属的义务,咱们从路由器银行中选用一个义务特定的路由器来定制路由打算,即,每对源 Token 应该输入适配器银行中的哪个适配器。

最后,咱们对适配器的输入启动加权求和,以取得融合揭示。每个路由器都有义务偏好来定制适合的适配器混合,而后经过适配器混合生成揭示,计算方法如下:

揭示驱动的融合 。义务定制的揭示遭到互消息正则化(MIR)的解放,这保障了对不同源的互补性。因此,揭示可以作为对每个起源中关键消息的比例的预计。经过多源特色和揭示的点乘,咱们在去除冗余消息的同时保管了互补消息。而后,思考到特色示意应该蕴含源相关的偏置(如可见或红外图像),咱们为每个源引入输入有关的可学习参数,即源编码 s。特色在经过揭示润色和源偏置,咱们获取细化的源特色

,而后经过融合层 F 取得融合特色,环节如下:

最终,咱们经过义务定制的揭示取得了一个融合特色。为了激励模型逐渐地提取关键消息,咱们对输入到下一个 Transformer 块的特色定义如下(

是一个超参数):

互消息正则 。为了保障模型在摈弃多源特色冗余消息的同时,灵活地保管互补消息,咱们对揭示符施加了正则化解放。假定特色示意呈线性变动,咱们定义 MIR 如下:

试验成果

定性和定量试验。 如图 3-5 和表 1-3 所示,在三个融合义务上的定性和定量对比标明咱们的方法功能逾越以往的通用融合方法。与特定义务的方法相比,咱们的方法在一切义务上也到达了先进水平,甚至在局部义务(VIF)上到达了上游水平。证实了所提方法的优越性。

图 3 VIF 义务 LLVIP 数据集上的定性比拟试验

图 4 MEF 义务 MEFB 数据集上的定性比拟试验

图 5 MFF 义务数据集上的定性比拟试验

表 1 VIF 义务 LLVIP 数据集上的定量比拟试验

表 2 MEF 义务 LLVIP 数据集上的定量比拟试验

表 3 MFF 义务 LLVIP 数据集上的定量比拟试验

图 6 域内义务的可控性和未知义务的泛化性

可控性和泛化性。 如图 6 所示,经过控制融合揭示的超参数 α 和 β,咱们可以区分控制模型对源图像互补消息的特色选用强度(区域级)和融合图像与某个源图像的相似度(图像级)。咱们可以经过线性变换融合揭示,最终成功生成定制的融合图像。关于已知的义务,如多曝光融合,咱们可以获取定制化的最合乎人类感知的融合结果。关于未知义务,咱们可以调制出最适合的融合参数,将模型泛化到未知义务。

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5372.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号