GPT4V Gemini等多模态大模型竟都没什么视觉感知才干 14 项义务测上去

  • 电脑网络维修
  • 2024-11-15

2023-2024年,以 GPT-4V、Gemini、Claude、LLaVA 为代表的多模态大模型(Multimodal LLMs)曾经在文本和图像等多模态内容处置方面体现出了绝后的才干,成为技术新浪潮。

但是,关于这些模型的评测多集中于言语上的义务,关于视觉的要求多为便捷的物体识别。相对的,计算机视觉最后试图解读图像作为3D场景的投影,而不只仅处置2D平面“形式”的数组。

为照应这一状况,本文提出了BLINK,这是一个 新的测试集 ,蕴含了从新设想的传统计算机视觉疑问,使咱们能够更片面评价多模态大模型的视觉感知才干,带你揭开GPT4V、Gemini等大模型的视觉界限秘密。

作者置信BLINK将处罚社区协助多模态LLMs到达与人类等同级别的视觉感知才干。

论文链接:

什么是BLINK?

BLINK 是一个针对多模态言语模型(Multimodal LLMs)的 新基准测试 ,专一于评价其外围视觉感知才干,这些才干在其余评价中并未触及。

BLINK蕴含 14 项视觉感知义务 ,领有 3.8k个选用题 7.3k张图像

人类可以“一眨眼”之间处置这些义务 (例如,相对视深、视觉对应、目的定位,和多视角推理等);但对的多模态大型言语模型(Multimodal LLMs)而言,这些义务导致了严重应战,由于它们难以经过人造言语处置来处置。

平均而言,人类在这些义务上的准确率为,但是即使是GPT-4V和Gemini也只到达了和的准确率,比随机猜想仅高出和。

BLINK与其余基准测试的区别

(1)BLINK 运用了多种的视觉prompt s, 如圆形、盒形, 和图像遮罩 masks, 而以前的基准测试仅蕴含文本疑问和答案。

(2)BLINK 评价了更片面的视觉感知才干 ,如多视角推理、深度预算和反射率预算。以往的基准测试理论更并重于基于物体识别的视觉问答(VQA)。

(3)BLINK 只蕴含“视觉”知识性疑问 ,这些疑问人类不须要接受教育就可以在一秒钟内回答,而以前的基准测试像MMMU这样的则须要专业畛域知识。

(4)BLINK涵盖了 14个需求感知 的义务,这些义务遭到经典计算机视觉疑问的启示。虽然这些疑问仅需人类“一眨眼”的期间即可处置,但它们超出了多模态大型言语模型的才干。

BLINK 试验结果

本文评价了17个不同大小(即7B,13B,34B)的多模态LLMs在BLINK上的体现。并观察到一个悖论:虽然这些疑问关于人类来说很容易(平均准确率为95.70%),但对现无机器来说却极端艰巨。

7B和13B开源多模态大型言语模型(LLMs) 的平均准确率大概在35-42%之间,与随机猜想(38.09%)相似。

最好的开源模型是LLaVA-v1.6-34B ,到达了45.05%的准确率。

即使是 最新的大模型 ,如GPT-4V、Gemini Pro和Claude 3 OPUS,其准确率也仅为51.26%、45.72%和44.11%。它们的体现仅比随机猜想好13.17%、7.63%和6.02%,并且比人类的体现差44.44%、49.98%和51.59%。

值得留意的是,在某些义务上,如拼图、语义对应、多视角推理、对象定位和相对反射率,一些多模态LLMs甚至体现不如随机猜想。

BLINK展现大模型的失误范例

关于每项义务,该文章展现了LLaVAv1.6-34B、Qwen-VL-Max、Gemini Pro、GPT-4V和人类的选用。白色选项指的是正确答案。请留意,为了视觉成果,作者故意加大了标志,并且将一些图片做成插图以节俭空间。

关于智力检验,第三张图片是经过叠加第一张和第二张图片导致的。

BLINK试验剖析

(1)把图片转换成文字能否是处置多模态疑问的正确选用?

为了回答这个疑问,本文经常使用GPT-4V将图片转换为与义务有关的密集图片字幕,并经常使用基于文本的LLM来实现义务(Caption + LLM)。这种密集字幕应用言语形容了图像及视觉提醒的详细消息(例如,每个圆圈的位置)。

作者在BLINK、MMBench和MMMU上启动了试验。令人惊讶的是,Caption + LLM的性能在MMBench和MMMU上的结果远优于BLINK。这些结果标明,图像字幕携带了回答其余基准所需的大局部视觉消息。同时,BLINK须要的初级感知才干超出了通用字幕目前可到达的范围。

(2)视觉提醒(visual prompts)对多模态大模型能发生多大的影响?

本文剖析了BLINK中多个义务上圆圈大小和色彩的影响。

试验标明,视觉提醒或者对多模态LLM的性能发生严重影响,改良视觉提醒或提高模型对提醒变动的鲁棒性是未来钻研的有前景的方向。依据剖析,作者发现最佳圆圈大小依赖于详细义务,平均而言,10px的圆圈成果最好。雷同,关于一切义务来说,白色比灰色更好。

(3)传统计算机视觉专家模型能处置BLINK义务吗?

专家可以作为多模态LLM或者到达的下限的代理。这提醒了一个或者性,即多模态LLM或者因正确的数据和培训战略而在这些义务上取得停顿。

作者简介:

府星妤 (Xingyu Fu) 是宾夕法尼亚大学NLP组的博士生,师从Dan Roth传授。她曾在亚马逊和微软实习。她的钻研重要专一于多模态大模型的感知和推理Reasoning。

胡雨石 (Yushi Hu) 是华盛顿大学NLP组的博士生,师从Mari Ostendorf 和 Noah Smith 传授。与此同时,他还是艾伦人工自动钻研所(AI2)在校生钻研员,此前曾在谷歌和腾讯AI 实习。他的钻研重要专一于多模态大模型和基于反应的模型训练。

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/6178.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号