NeurIPS`24

  • 电脑网络维修
  • 2024-11-14

文章链接:名目链接:

亮点直击

总结速览

处置的疑问

现有的场景了解数据集和基准测试在数据模态、多样性、规模和义务范围方面存在局限性,不可充沛允许对3D场景中情境了解的钻研。

提出的打算

提出了 多模态情境问答 (MSQA) 数据集和基准测试,经过3D场景图和视觉-言语模型大规模采集数据,以优化模型对情境的推理才干。此外,提出了 多模态情境下一步导航 (MSNN) 基准测试,用于评价模型在情境推理中的导航才干。

运行的技术

到达的成果

对MSQA和MSNN的综合评价显示了现有视觉-言语模型的局限性,验证了处置多模态交替输入和情境建模的关键性。数据裁减和跨域迁徙试验进一步标明,MSQA数据集在预训练中的运行清楚优化了模型的情境推理才干。

多模态情境推理数据集

本文提出了一种陈腐且可裁减的方法,用于搜集高品质的3D情境推理数据,并遵照三项外围准则:

数据搜集

如下图3所示,本文精心设计了一个基于LLM的智能数据搜集流程,蕴含三个阶段:情境采样、问答对生成和数据精炼。本文的数据搜集目的是确保生成数据的高品质。以下是流程的详细引见。

在将这些相关建设为场景图中的边后,依据采样情境的位置和视角调整水平临近相关,以取得情境场景图。基于这些情境场景图,设计系统提醒语并手工制造示例以提醒GPT-3.5生成情境问答对。本文关注9种不同的疑问范围,涵盖物体属性、计数、空间相关、导航举措等(如下图4(a)所示)。在提醒环节中,批示LLM输入疑问类别。为进一步增强LLM生成的问答对的多样性,咱们经常使用不同的种子示例组合,并依据不同的距离样本生成不同的情境子场景图用于疑问生成。

数据精炼 为了优化生成的情境问答对的品质,启动了精炼流程,包括两个关键方面:

先前的钻研[28, 68]已强调数据平衡的关键性,经过挑选不平衡的问答对来平衡生成数据的答案散布。经过这些步骤,搜集了跨ScanNet、3RScan和ARKitScenes的251K多模态情境问答对。下表1和提供了MSQA与现有数据集的对比及更多统计数据。

数据品质控制

虽然基于LLM的数据搜集流程具有可裁减性,但生成数据的品质依然是关键关注点,特意是在3D视觉-言语义务中,言语的锚定具有应战性。为应答这些疑问,启动了人类钻研,将生成的数据与SQA3D中的人工标注数据启动比拟。详细而言,从MSQA和SQA3D中各抽取100条数据实例并混合供人类评价。评价员被要求从三个方面为数据打分:

每个方面的评分范围为1到5分。评价流程的详细消息见附录B。评价结果如下面图4(b)所示,显示MSQA在各方面的品质与SQA3D相当。此外,图4(c)标明,MSQA中高评分数据(即得分≥4的品质数据)的比例与SQA3D相婚配或超越SQA3D。这标明了MSQA的品质以及数据精炼流程的有效性。

评价基准

本节详细形容了用于多模态情境推理的评价义务。详细而言,思考了以下两个基准义务:

多模态情境问答 (MSQA) 在MSQA中评价模型在情境感知和处置交织的多模态输入方面的才干。详细来说,给定一个多模态情境形容,模型须要回答一个基于3D场景的文本-图像交织疑问。由于回答是开明式的,以往的目的(如分类准确率和齐全婚配准确率)不可准确评价。为了处置此疑问,参考OpenEQA经常使用基于GPT的评价目的来评价开明式回答,并裁减其提醒集以适用于3D情境推理。总体上,报告了蕴含N个样本的测试集的正确率评分C,其计算方式如下:

多模态情境下一步导航 (MSNN) 除了MSQA外,还宿愿经过具身AI义务(如导航)评价模型的情境感知才干。为将长时布局与情境了解分别,本文提出了MSNN义务,聚焦于在情境和导航目的的基础上预测最佳的即时下一步举措。详细来说,给定代理的交织多模态情境形容(包括位置、方向和文本形容)、目的文本形容和全体场景,咱们批示模型以文本方式回答通向目的的下一步举措。

为评价,MSNN数据驳回相似情境QA生成流程并蕴含四个关键步骤:

最优门路由A*算法生成,以在平面图上布局从起始位置到目的的最短门路,而即时下一步举措则依据相对起始情境的最优门路方向确定。最终,生成了一个蕴含34K个MSNN样本的数据集,笼罩ScanNet中的378个3D场景。此数据集进一步用于监视微和谐MSNN评价。

试验

模型设置

受3D通用模型、LLM和VLM最新停顿的启示,本文提出了几种适用于MSQA和MSNN的潜在方法,包括可间接零样本运行于这些义务的模型,以及须要指令调优的模型。

零样本模型

本文钻研了现有LLMs和VLMs(例如GPT-3.5和GPT-4o)在多模态情境推理中的才干。鉴于这些模型在处置3D点云方面的局限性,咱们将3D场景的文本形容作为输入提供应这些模型。详细而言,场景被形容为对象汇合,每个对象都蕴含类别、位置、大小和属性等特色。而后将该场景的文本形容与交织的多模态情境形容、指令和疑问结合,进一步由LLM或VLM处置。关于纯文本模型(如LLMs),用对象类别代替对象的图像作为模型输入。此外,还引入了Claude-3.5-Sonnet以消弭GPT家族内的潜在偏向。

指令调优

基于3D通用模型的最新停顿,对现有的3D视觉-言语基础模型在MSQA和MSNN义务上启动微调。选用LEO作为代表模型,因其在3D视觉-言语了解和推理中的出色体现。由于LEO不允许交织的多模态输入,将输入图像交流为其对应的对象类别,相似于零样本模型。此外,还裁减了LEO,以顺应交织的多模态输入,构成了咱们弱小的基线模型MSR3D,公用于情境推理和导航。MSR3D经过依据代理的情境对点云输入启动平移和旋转来建模情境。选用MSR3D作为后续消融钻研和剖析的关键模型。更多关于MSR3D设计的细节详见附录C。

评价结果

本节提供了模型在MSQA和MSNN义务上的评价结果。报告了两个义务测试集的平均正确性评分。此外,还调查了不同情境和疑问输入模态(Input)、3D场景示意(Scene)以及模型设置(Setting)。关于MSNN,将预训练数据(PT>多模态情境问答 (MSQA)

下表2中展现了MSQA的试验结果,并报告以下发现:

情境组件对情境推理至关关键

为了提醒情境组件在微调(FT)模型中的有效性,咱们减少了一个齐全移除情境组件的FT基线,保管3D场景和疑问作为输入。前面表2(有情境)中的结果显示,去除情境组件后功能清楚降低。特意是,导航相关疑问的降低更为清楚,这与MSNN的评价结果相分歧,突显了情境组件的关键性。

交织多模态输入为情境推理带来了新应战

虽然交织多模态输入具有长处,观察到MSR3D(T+I)的体现略逊于仅文本输入(T)。为进一步剖析这一纤细差异,咱们从测试集中提取了两个子集,使图像仅出如今情境或疑问中。下表4中报告了这两个子集的评价结果,显示“T+I”在图像仅出如今疑问中的子集上体现清楚降低。咱们推测,将图像归入疑问或者放大了情境推理的难度,由于从图像中识别查问对象须要额外的定位才干。

多模态情境下一步导航 (MSNN)

在下表5中展现了MSNN的试验结果,并报告以下发现:

MSNN义务具有应战性

表5的结果显示,最新的LLMs(如GPT-3.5和GPT-4o)和3D视觉言语模型在处置MSNN义务时都面临清楚的应战。这标明了MSNN义务在3D情境推理和具身AI钻研中的价值。

MSQA作为具身AI预训练源的有效性

咱们发现,将MSQA用于预训练(对LEO和MSR3D均有效)清楚优化了MSNN义务的体现,说明MSQA作为处置具身导航义务的预训练源的有效性。

MSR3D的情境建模方法有效

MSR3D(T),结合情境建模,在导飞行为预测中显示出清楚更高的准确性(相比LEO(T)高出8.56%)。这验证了咱们情境建模方法的有效性。此外,咱们经过屏蔽代理的位置和方向来测试有情境的MSR3D,结果体现清楚降低(见表5的有情境结果),进一步证实了情境消息的关键性,同时MSR3D能够有效应用情境消息。

附加剖析

裁减效应 经过在不同数据规模下训练MSR3D来探求MSQA的裁减效应。钻研了裁减的三个要素:QA(随机下采样QA对)、情境(下采样QA对和情境)以及场景(下采样QA对和场景)。如图7所示,随着这三个要素的裁减,模型功能出现继续优化的趋向,显示了清楚的裁减效应,标明进一步裁减的后劲。

跨畛域迁徙 本文将MSQA数据分为三个子集,区分为、和 ARKitScenes ,并经过在每个子集上训练MSR3D并在一切子集上启动评价来钻研跨畛域迁徙。下表6的结果显示,每个子集上最佳的体现是经过在同一畛域内训练(加粗的局部),而非跨畛域迁徙,展现了畛域间的差距。在ARKitScenes上训练的模型在跨畛域迁徙中的体现较差。思考到ARKitScenes中场景相对便捷,这标明在复杂场景上的训练有助于优化跨畛域泛化才干。

论断

本文提出了多模态情境问答(MSQA),这是一个大规模的多模态情境推理数据集,经过可裁减的数据生成pipeline搜集而成。MSQA蕴含251K个情境QA对,涵盖多种事实环球场景,一切数据以一致格局出现,包括交织的文本、图像和点云。本文提出了基于MSQA的应战性基准,用于评价3D场景中的多模态情境推理。此外,还提出了多模态情境下一步导航(MSNN),这一义务旨在评价情境推理和具身导航的才干。咱们的片面试验凸显了咱们数据集和基准的关键价值。宿愿这项上班能推进情境场景了解和具身智能的开展。

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5290.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号