大言语模型评价基准数据暴露疑问剖析报告

电脑网络维修
2024-11-15

1. 钻研背景与动机

近年来，大言语模型（Large Language Models, LLMs）在人工自动畛域取得了渺小的停顿。为了评价这些模型的才干，钻研人员开发了许多评价基准。但是，随着这些基准的宽泛经常使用，人们对其适当性和偏心性发生了越来越多的担心。

本钻研的关键动机包括：

例如，GPT-3在训练环节中发现其预训练语料库蕴含了Children's Book Test数据集，而LLaMA-2则提到BoolQ数据集中的高低文是间接从网页中提取的，这些网页或者曾经蕴含在地下可用的语料库中。这些状况都或者造成评价结果的偏向。

2. 基准数据暴露的实证钻研

为了钻研基准数据暴露的影响，钻研人员设计了三种数据暴露场景：

钻研者选用了四种不同规模的言语模型启动评价：

评价基准包括：

试验结果显示，数据暴露清楚优化了模型在关系基准上的体现。以下是局部结果的示例：

模型	训练设置
GPT-Neo (1.3B)	无
GPT-Neo (1.3B)	+一切训练集
GPT-Neo (1.3B)	+一切训练集+测试揭示

这些结果清楚地标明，即使是较小的模型（如1.3B参数的模型）在数据暴露的状况下也能清楚提高功能，有时甚至超越了未经暴露数据训练的更大模型。

3. 基准数据暴露的潜在危险

钻研还讨论了基准数据暴露或者带来的其余危险：

3.1 对其余义务功能的负面影响

钻研者选用了三个未蕴含在暴露数据中的义务来评价影响：

结果显示，在暴露数据上训练后，模型在这些义务上的功能普遍降低。例如：

模型	训练设置
LLaMA-2 (7B)	无
LLaMA-2 (7B)	+暴露

这标明，仅在暴露数据上训练或者会造成模型在其余惯例义务上的功能降低。

3.2 降低模型的顺应才干

钻研者还讨论了数据暴露对模型后续顺应性的影响。他们经常使用Alpaca和CodeAlpaca数据集对模型启动指令微调，而后评价其功能。结果显示：

模型	训练设置
LLaMA-2 (7B)	+指令微调
LLaMA-2 (7B)	+暴露+指令微调

这标明，在暴露数据上训练的模型在后续顺应新义务时或者面临更大的艰巨。

4. 讨论与倡导

基于钻研发现，论文提出了以下倡导：

4.1 通用倡导

4.2 对LLM开发者的倡导

4.3 对基准保养者的倡导

5. 局限性与未来上班

本钻研存在一些局限性：

未来上班可以focus在这些方向上，启动更系统、更片面的钻研。

6. 论断

本钻研深化讨论了大言语模型评价中的基准数据暴露疑问，得出以下关键论断：

这项钻研为偏心、牢靠地评价大言语模型提供了贵重的见地和适用倡导，关于推进LLM评价畛域的开展具备关键意义。

论文原文：《Don’t Make Your LLM an Evaluation Benchmark Cheater》

本文转载自，作者：

关注微信

上一篇：在图像生成畛域自回归可以战败分散模型吗

下一篇：该怎样经常使用训练好的大模型大模型训练成功之后可以间接经常

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：https://duobeib.com/diannaowangluoweixiu/6093.html

大言语模型评价基准数据暴露疑问剖析报告

2. 基准数据暴露的实证钻研

3. 基准数据暴露的潜在危险

3.1 对其余义务功能的负面影响

3.2 降低模型的顺应才干

4. 讨论与倡导

4.1 通用倡导

4.2 对LLM开发者的倡导

4.3 对基准保养者的倡导

5. 局限性与未来上班

6. 论断

猜你喜欢

热门标签

随便看看

TCP发送窗口接纳窗口以及其上班原理

I 如何发现 PostgreSQL 和中那些消耗 CPU

如何改良DevOps上班流

安保无大事安保防范从Nginx性能做起程序员安保规范

斯坦福学者提出Edu

热门资讯

阅读排行

MD5 究竟算不算一种加密算法

0xc0000005错误代码解决方法

小米手机是雷军的特洛伊木马

步骤和通常角色应战细说企业数据分级

键盘win键无效的解决办法电脑win键失效怎么办?

关注我们

大言语模型评价基准数据暴露疑问剖析报告

2. 基准数据暴露的实证钻研

3. 基准数据暴露的潜在危险

3.1 对其余义务功能的负面影响

3.2 降低模型的顺应才干

4. 讨论与倡导

4.1 通用倡导

4.2 对LLM开发者的倡导

4.3 对基准保养者的倡导

5. 局限性与未来上班

6. 论断

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号