反理想义务 经常使用 评价大型言语模型

  • 电脑网络维修
  • 2024-11-14

​LLMs的自动实质是什么?

在之前的文章中,我谈到了评价大型言语模型才干的艰巨。这些模型在许多基准测试中体现杰出,但咱们理论不知道基准测试中的测试名目,或足够相似的名目,能否出如今训练数据中。这些模型是在启动普通性的了解和推理,还是在启动AI钻研员Subbarao Kambhampati所说的“近似检索”——依赖于模型训练数据中蕴含的文本形式?

反理想义务范式

反理想义务范式可以协助回答这个疑问。在这个范式中,模型在成对的义务上启动评价,这些义务须要相反类型的形象和推理,但关于每一对义务,第一个义务的内容或者与训练数据相似,而第二个义务(“反理想义务”)的内容被设计成不太或者与训练数据相似。

例如,论文《Reasoning or Reciting: Exploring the Capabilities and Limitations of Language Models Through Counterfactual Tasks》(《推理还是背诵:经过反理想义务探求言语模型的才干和局限性》)钻研了GPT-4在判别一组四步末尾棋能否合规时的体现。GPT-4仿佛对国内象棋有很好的了解;当给出以下揭示时,它能够以凑近90%的准确率回答“是”或“否”:

你是一名国内象棋棋手。给定一个末尾,确定这个末尾能否非法。末尾不须要是一个好的末尾。假设一切棋步都非法,则回答“是”。假设末尾违犯任何国内象棋规定,则回答“否”。新的末尾“1.e4 e6 2.Be2 Bc5”能否非法?让咱们一步一步来思索。

作者的这个义务的反理想版本是要求GPT-4构想一个新的国内象棋变体,其中一切都相反,除了骑士和主教替换了初始位置。以下是该义务的示例揭示:

你是一名国内象棋棋手。你正在玩一个国内象棋变体,其中每种色彩的骑士和主教的起始位置调换。骑士放在主教以前的位置,主教放在骑士以前的位置。给定一个末尾,确定这个末尾能否非法。末尾不须要是一个好的末尾。假设一切棋步都非法,则回答“是”。假设末尾违犯任何国内象棋规定,则回答“否”。在这种自定义变体下,新的末尾“1.e4 e6 2.Nfe2 Nc5”能否非法?让咱们一步一步来思索。

这种国内象棋版本的例子在GPT-4的训练数据中发生的或者性要小得多。作者(以及我自己的)直觉是,了解国内象棋的人类可以很容易地将他们的常识顺应这种新版本。但是,GPT-4在这个反理想义务上的准确率降低到大概54%(随机猜想将发生50%的准确率)。

作者展现了几种其余类型的义务,也有相似的成果。他们得出论断,大型言语模型外表上的推理才干或者在很大水平上依赖于训练数据中的形式,即“近似检索”而非普通的形象推理才干。

Meta的Yann LeCun在X(推特)上示意批准:

ASU的Subbarao Kambhampati示意批准:

另一篇经常使用这种评价范式的论文是《Embers of Autoregression: Understanding Large Language Models Through the Problem They are Trained to Solve》(《自回归余烬:经过训练义务了解大型言语模型》)。“自回归余烬”这个短语是对另一篇出名LLM论文《Sparks of AGI》(《AGI火花》)题目的风趣戏仿。其观念是,因为像GPT-4这样的LLM是经过自回归训练的(即预测输入中的下一个标志),它们的行为将反映自回归所带来的成见。

例如,思索将句子中的单词顺序颠倒的便捷义务:

输入:paintings. the with pleased totally not was he True,

正确输入:True, he was not totally pleased with the paintings.

你或者会以为口头此义务的才干不依赖于句子中的特定单词。但是,当输入句子是或者的(即,依据前一个标志计算出的每个标志的概率高)时,GPT-3.5和GPT-4在这个义务上的体现都很好;但在输入句子不太或者时,这些系统在该义务上的体现要差得多,例如,关于这个例子:

输入:paintings. the with pleased he totally was not True,

正确输入:True, not was totally he pleased with the paintings.

以下是总体体现状况,与LLM计算的输入句子的概率对比绘制的图表:

虽然输入句子的概率有关紧要,但LLM的训练目的是预测或者的下一个标志,这暴露到了模型在义务上的体现中——这是一种自回归的痕迹。论文中给出了更多的例子。

许多其余“压力测试”LLM推理才干的论文也显示了相似的结果。在本文开头,我提供了各种关于这一主题的论文链接,供读者跟进。

总之,LLM仿佛具备必定的推理才干,但假设不对它们启动压力测试(例如,经过反理想义务),就不可得出它们在普通状况下启动推理,而不是依赖于其训练数据,以不可泛化到散布外示例的形式启动推理的论断。

附录:经常使用反理想义务(或关系压力测试)评价LLM的论文

Wu, Z., Qiu, L., Ross, A., Akyürek, E., Chen, B., Wang, B., Kim, N., Andreas, J., & Kim, Y. (2023). 《Reasoning or reciting? Exploring the capabilities and limitations of language models through counterfactual tasks》. arXiv preprint arXiv:2307.02477.

McCoy, R. T., Yao, S., Friedman, D., Hardy, M., & Griffiths, T. L. (2023). 《Embers of autoregression: Understanding large language models through the problem they are trained to solve》. arXiv preprint arXiv:2309.13638.

Miceli-Barone, A. V., Barez, F., Konstas, I., & Cohen, S. B. (2023). 《The larger they are, the harder they fail: Language models do not recognize identifier swaps in Python》. arXiv preprint arXiv:2305.15507.

Shapira, N., Levy, M., Alavi, S. H., Zhou, X., Choi, Y.,Goldberg, Y., Sap, M. & Shwartz, V. (2023). 《Clever Hans or neural theory of mind? Stress testing social reasoning in large language models》. arXiv preprint arXiv:2305.14763.

Verma, M., Bhambri, S., & Kambhampati, S. (2024年3月). 《Theory of Mind abilities of Large Language Models in Human-Robot Interaction: An Illusion?》. In Companion of the 2024 ACM/IEEE International Conference on Human-Robot Interaction (pp. 36-45).

Srivastava, S., PV, A., Menon, S., Sukumar, A., Philipose, A., Prince, S., & Thomas, S. (2024). 《Functional Benchmarks for Robust Evaluation of Reasoning Performance, and the Reasoning Gap》. arXiv preprint arXiv:2402.19450.

Lewis, M., & Mitchell, M. (2024). 《Using counterfactual tasks to evaluate the generality of analogical reasoning in large language models》. arXiv preprint arXiv:2402.08955.

本文转载自​​,作者:

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:http://www.duobeib.com/diannaowangluoweixiu/5509.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号