大模型不看图也能正确回答视觉疑问! 中科大等异常发现

  • 电脑网络维修
  • 2024-11-14

大模型不看图,竟也能正确回答视觉疑问?!

中科大、香港中文大学、上海AI Lab的钻研团队团队异常发现了这一新奇现象。

他们首先看到像GPT-4V、GeminiPro、Qwen1.5-72B、Yi-VL-34B以及LLaVA-Next-34B等大模型,不论是闭源还是开源,言语模型还是多模态,居然只依据在多模态基准MMMU测试中的疑问和选项文本,就能取得不错的效果。

△蓝色示意能看到图的LVLMs,橘色和绿色区分示意只接纳疑问和选项文本的LLMs和LVLMs

(LLM:大言语模型;LVLMs:多模态大模型)不知道的还以为是大模型的暗藏技艺被发现了。

有网友收回灵魂拷问: 咱们评价多模态模型的方法正确吗?

这一结果也激发了钻研者们的猎奇,于是他们选择对此倒退进一步探求。

大模型暗藏技艺被发现?

针对现有的评价样本和评价环节,钻研人员以为形成这种现象的两个重要疑问。

第一,一些多模态评价样本缺少对视觉内容的依赖性。

这种疑问反映了现有的benchmark中的不正当之处。这个疑问包括了两种状况:

一种是有些评价样本的答案可以被包括在了标题和选项中从而免去了看图的必要。

比如会有这种疑问,这个圆形土圈是什么状态?

另外一种则是有些评价样本可以间接被言语大模型应用嵌入的丰盛环球常识启动解答而无需依赖图片。

比如下图中的疑问:内布拉斯加州的首府是什么?

第二,现有评价环节未思考言语和多模态大模型训练环节中的数据暴露疑问。

LVLM理论由一个vision encoder,一个言语模型基座,以及一个视觉-言语衔接件组成。而且现有的多模态benchmark中有少量的评价样本是从单模态的文本语料中转化上来的(比如从考试标题中转化而来)。

因此假设大言语模型的训练数据中有意间暴露了多模态benchmark中转化不充沛的评价样本,就会影响LVLMs之间的偏心比拟。

为了定量观察大言语模型中宽泛存在的暴露现象,钻研者们驳回了22个大言语模型在6个地下benchmark上启动评价。

这些大言语模型包括了2个闭源模型(GPT4-Turbo以及GeminiPro)和20个大小、架构各异的开源模型(比如Qwen系列,LLaMA2系列,Baichuan系列,Mixtral-8x7B等),并且经常使用了2-shot推理战略来缩小拒绝回答的状况以及对齐回答的格局。

结果看到,闭源模型GeminiPro和开源模型Qwen1.5-72B在极具应战性的MMMU基准上可以区分取得42.7和42.4的惊人效果,一度迫近GeminiPro-Vision (44.4),LLaVA-Next-34B (47.0)和Yi-VL-34B (43.2)等多模态模型在能看到图片状况下的体现。

进一步的,他们还定量观察多模态大模型在训练环节中的数据暴露状况:屏蔽了LVLM的图片输入从而只依据文本疑问和选项来启动评价(标志为LVLM-text)。

可以看到,像Sphinx-X-MoE和Monkey-Chat经过多模态训练后在不看图的状况下相比原始大模型在MMMU基准上可以区分优化惊人的17.9和12.6,而它们即使进一步在看到图片的状况下也只能取得1.2和4.7的功能优化。

GPT-4在新基准上没有及格

为了处置上述疑问从而启动更公温和准确的评价,钻研者们设计了一个多模态评价基准——

包括了1,500个具备视觉依赖性的高品质评价样本,涵盖了样本平衡的粗略感知、精细感知,实例推理、逻辑推理、迷信技术、数学这六个外围才干以及18个具体的才干维度。

随同着MMStar benchmark,作者们还提出了multi-modal gain (MG)和 multi-modal leakage (ML)两个评价目的来反映出LVLMs在多模训练环节中的实在功能增益和数据暴露水平。

随后,为了测验所提出的MMStar品质,他们启动了三项评价。

1)用22个大言语模型只依据MMStar中的疑问和选型启动了评价,结果显示,他们的体现都凑近于随机选用,这标明MMStar在现有大模型训练语料中有着很少的数据暴露。

2)评价16个多模态模型在MMStar上的功能。

高分辨率设置下的GPT4V取得了57.1的最高平均功能(但还是没有及格)。

开源模型中InternLM-Xcomposer2取得了平均功能为55.4的好效果,LLaVA-Next在数学维度上的体现要略优于GPT4V和GeminiPro-Vision。

值得留意的是,没有多模态大模型能够在精细感知(FP),逻辑推理(LR),迷信技术(ST)以及数学(MA)上及格。

3)用16个LVLMs在6个地下benchmark以及所提的MMStar上对MG和ML目的启动了宽泛评价。

可以看到,而MMStar展现出了起码的平均数据走漏水平。

钻研团队置信,这种跨模型间的ML目的对社区之后测验新开发的多模态benchmarks也是有益的。

论文链接:​​ ​​ ​​名目链接:​​ ​​ ​

代码链接:​​ ​​ ​

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5473.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号