最强GPT 长高低文才干只是吹嘘

  • 电脑网络维修
  • 2024-11-14

大数字一贯吸引眼球。

千亿参数、万卡集群,——还有各大厂商不时在卷的超长高低文。

从一开局的几K几十K,开展到了当初的百万token级别。

Gemini的最新版本可以接纳200万个token作为高低文。

这大略相当于140万个单词、2小时视频或许22小时的音频。

但不知诸位往罕用得着这么长的高低文吗?毕竟100K曾经相当于一部比拟长的小说了。

更关键的是,LLM真的能在这个长度上启动推理吗?

近日,有两篇独立钻研区分标明:长高低文水分很大!LLM实践上并不能「了解」内容。

读小说应战

首先是来自UMass、AI2和普林斯顿的钻研人员,推出了一项针对性的测试。

论文地址:

代码和示例数据:

传统的长高低文测试手腕普通被称为「海底捞针」(needle-in-a-haystack):

将一个理想(针)嵌入到少量的高低文消息(干草堆)中,而后测试模型能否找到这根「针」,并回答与之关系的疑问。

这种模式基本上权衡的是LLM的检索才干,有些流于外表。

于是钻研人员构建了NoCha(小说应战)数据集,让模型依据所提供的高低文(书籍)验证申明的虚实。

如下图所示,由小说的粉丝依据书籍内容,提出关于同一事情或角色叙说的一对相反的申明。

LLM看完小说后须要区分判别两个疑问的虚实(确保是依据了解做题,打击在考场上瞎蒙的)。

关于一对疑问的回答有四种状况,只要两个疑问全对时才干得一分。

钻研人员测试了目前最强的一些长高低文模型(包括闭源和开源),并将效果单贴在墙上,地下处刑:

首当其冲的是GPT-4o,只管全班第一,然而55.75分。

而开源营垒的效果间接惨不忍睹,体现最好的Command R(simple)只要22.47%的准确率。

——要知道,这考试瞎蒙也能得25分(四选一)。

当然,这也说明人家不是瞎蒙的,确实动脑子了。

视觉上的长高低文

另一篇钻研来自UCSB,调查的是视觉大模型(VLM)的长高低文才干。

论文地址:

关键的试验思绪如下图所示,钻研人员经过不时参与高低文长度(搅扰图片的数量),将现有的VQA基准和便捷图像识别集 (MNIST) 裁减为测试长高低文「提取推理」的示例。

结果在便捷VQA义务上,VLM的性能出现出惊人的指数衰减。

——LLM:暴露无遗了家人们。

而与实践钻研相对的,在往年早些时刻,谷歌展现了几个预先录制的演示。

让Gemini 1.5 Pro搜查阿波罗11号登月的电视直播记载(约402页),查找蕴含笑话的引语,以及在电视直播中找到与铅笔素描相似的场景。

掌管这次简报会的谷歌DeepMind钻研副总裁Oriol Vinyals示意,「Gemini 1.5 Pro可以在每一页、每一个单词上口头此类推理义务。」

一千零一夜

第一篇上班被作者命名为「One Thousand and One Pairs」(上方这盏灯应该也是这么来的)。

一千零一在这里有两个含意,首先用于测试的资料基本都是小说,关于大模型来说,算是故事会了;

其次,作者真的花钱请人注释了刚刚好1001个疑问对。

为了保障模型不可依托自己的常识来舞弊,这1001个疑问大局部来自于最近出版的虚拟叙事类读物。

数据搜集

NoCha数据集包括63本旧书(33本于2023年出版,30本于2024年出版)和四本经典小说,书籍的平均长度为127k个token(约98.5k个单词)。

注释者首先写出关于书中事情或人物的实在陈说,而后针对同一对象创立相应的虚伪陈说,同时还须要给出一个冗长的解释,说明为什么这些说法是正确或失误的。

为了确保申明的品质,作者延聘了读过相反书籍的注释者,来验证五本书中的128个申明,并最终对其中的124个达成了分歧。

上方给出参与本次考试的考生消息(开源和闭源两大营垒):

以及考试效果:

结果剖析

假设依照小说类型划分,一切六个闭源模型在历史小说上的准确率为56.4%,当代小说为46.8%,推理小说为38.8%。

关于每个模型来说,都是历史小说的准确度最高,当代小说次之,推理小说的准确度最低。

从这个结果来看,貌似LLM的推理更多依赖于自身参数中的常识。

接上去做个对比试验:假设某个主张可以经过书中的一小局部内容来独自验证,那么提供本书的其他局部能否会影响其准确性?

上图显示了在四个短篇故事集上的模型性能,每两行为一组,上方一行示意给出整本书(约129k token)时的准确率,上方示意只给出与申明关系的局部(约21k token)。

Gemini关于参与高低文的体现相对持重,而Claude-3-Opus的准确度间接降低了44.5%,Claude-3.5-Sonnet、GPT-4-Turbo和GPT-4o的体现也大幅降低。

作者示意,与句子层面的检索义务相比,模型在验证须要思考整本书(或大局部)内容的疑问时,显得力所能及。

另外,书中的一些隐含消息关于人类读者来说是明白的,但LLM却不可了解。

海底捞针

另一项钻研来自加州大学圣巴巴拉分校(UCSB),作者引入了 LoCoVQA,一种带有搅扰项的长高低文视觉问答 (VQA) 基准生成器。

LoCoVQA可以提供与疑问关系的图像序列,以及一组可性能的视觉搅扰项,从而准确评价VLM如何在错乱的高低文中仅提取与查问关系的消息。

从原理上讲,这也是一项「海底捞针」的义务。

另外,LoCoVQA的方法能够以任用意像了解数据集为基础,创立长高低文图像了解测试。

生成方法

经过LoCoVQA分解的样本蕴含一个或多个与问答对(

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:http://www.duobeib.com/diannaowangluoweixiu/5426.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号