Meta推出开明环球具身问答数据集OpenEQA 视觉大模型在具身自动上还有很长的路要走!

  • 电脑网络维修
  • 2024-11-15

构想一个实体化的 AI 代理,充任家庭机器人的大脑或时兴的自动眼镜 。这样的代理须要应用视觉等感知模态来了解周围环境,并能够用明晰、日常言语有效地与人交换。这相似于构建“环球模型”,即代理对外部环球的外部示意,可以经过言语查问。这是一个常年愿景和一个艰难的钻研应战——Meta正在踊跃探求。

近日, Meta颁布了开明词汇体验问答(OpenEQA)框架——一个权衡 AI 代理经过开明词汇疑问来了解其环境的新基准 。这相似于咱们如何评价人类对概念的了解,即经过问疑问并评价他们的答案。OpenEQA 蕴含两个义务:

Meta经常使用OpenEQA对几个最先进的视觉+言语基础模型(VLMs)启动了基准测试,并发现 即使是功能最好的模型(GPT-4V到达48.5%)与人类体现(85.9%)之间也存在清楚差距 。特意值得关注的是, 关于须要空间了解的疑问,即使是最好的VLMs简直是“自觉”的——也就是说,它们的体现并不比仅文本模型好多少 ,这标明应用视觉消息的模型并没有从中取得实质性的好处,并且在回答视觉疑问时依赖于在文本中捕捉的无关环球的先验常识。举个例子,关于疑问“I'm sitting on the living room couch watching TV. Which room is directlybehind me?”, 模型基本上是随机猜想不同的房间,而没有从视觉叙事记忆中取得清楚的好处,这应该提供对空间的了解 。这标明,在实体化AI代理预备好进入干流之前, 须要在感知和推理方面启动额外的改良

OpenEQA将具备应战性的开明词汇疑问与以人造言语回答的才干相结合。这发生了一个直观的基准测试,显示了对环境的弱小了解,并对的基础模型导致了严重应战。咱们宿愿这项上班能激起更多的钻研,协助AI了解和沟通它所看到的环球。

论文:

数据集:

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5930.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号