言语模型常识编辑的鲁棒性钻研

电脑网络维修
2024-11-15

一、引言

随着大型言语模型的兴起，人造言语处置（NLP）社区面临的关键应战之一是如何高效地对模型启动微调。假设须要短期内扭转模型的某些行为，从新启动参数微调或许会过于耗时和低廉，在这种状况下，模型常识编辑（Knowledge Editing）技术就显得尤为关键。本文关键钻研模型常识编辑的鲁棒性，偏重点探求两个新疑问：常识抵触（Knowledge Conflict）和常识歪曲（Knowledge Distortion）。

二、背景

本文钻研的常识编辑方法均为修正参数的方法，即经过间接修正模型参数从而扭转模型的输入或行为，而无需从新启动完整的训练或微调环节。当同时编辑多个常识点时，编辑之间或许会出现影响。

探求和评价这两类疑问并构建常识编辑鲁棒性基准尤为关键。首先，这有助于提醒现有常识编辑方法的潜在弱点，从而疏导方法在启动常识编辑时关注模型常识的分歧性疑问。其次，经过这样的探求，可以协助开收回不会对模型形成潜在危害的鲁棒常识编辑打算。这不只能够确保在启动常识编辑时，不会对模型的外部原有常识发生潜在的负面影响，还能够提高常年运行常识编辑时模型的牢靠性。

三、钻研方法

在钻研常识编辑时，特意是启动编辑成果评价目的构建时，经常常使用的一个概念是编辑范围（Editing Scope）。编辑范围是编辑样本在整个输入空间的作用范围，假设咱们将常识编辑了解为在某一些与编辑样本相关的输入上扭转模型的输入体现，那么咱们可以在样本空间做出划分，遭到影响的输入称为编辑内输入，未遭到影响的称为编辑外输入，这种编辑范围的划分是常识编辑的评价基准，咱们经常使用探测样原本启动目的评价时也会在此范围内外启动采样，依据采样位置的不同，就会发生不同的结果，但在一套评价体系下，采样的形式应该尽量一致。在编辑范围的视角下，咱们将三种抵触编辑的编辑对各自的编辑范围用下图来展现，并依据此来构建CONFLICTEDIT数据集。

咱们设计了一个新的目的抵触得分（Conflict Score，CS），用以权衡常识编辑方法处置常识抵触疑问的才干。咱们经过计算常识编辑后新常识比旧常识生成概率更高的比率来计算CS，即：

在组合编辑设置中，关联常识也对形成常识抵触很关键，因此咱们将的概率变动视为依赖常识侵害（Tied Fact Damage，TFD），计算形式相似于CM计算公式，其中咱们用交流。同时，咱们为了对比笼罩编辑和单条编辑在结果上的不同，咱们参与了单条（Single）试验的结果作为基准。咱们发现，ROME在前馈层逆编码矩阵中参与新的键值（Key-Value）映射的形式时，经过优化如下表白式来最大化编辑目的尾实体的生成概率从而获取映射值向量的最优解

关注到的一局部如下：

当作为前馈层在头实体开端的词元i位置输入时（即

时），模型对探测输入在目的尾实体o*的预测概率到达最大。这种形式相比于间接优化下一个词元生成概率散布交叉熵损失的好处在于，它仅针对头实体暗藏层编解码环节启动优化，咱们猜想这个环节发生过拟合的状况会更少。而不发生过拟合疑问就象征着下一个词元生成时，与目的尾实体语义相近的词元的生成概率也或许提高，这种现象咱们称为迁徙（Migration）。依据这种现象，咱们将 ROUNDEDIT 数据集划分为便捷（EASY）和艰巨（HARD）形式，如下图所示。

咱们定义了三个新的目的来权衡常识编辑方法造成的常识歪曲水平。歪曲水平（Distortion，D）目的预算了在来回编辑前后，正确标签汇合上相对预测概率散布的JS散度，即：

四、试验剖析

咱们在GPT2-XL和GPT-J上启动试验，并在表1中汇总了单条编辑、笼罩编辑、反向编辑和组合编辑几个场景的试验结果。加粗结果示意在每种状况下的最佳体现，而白色结果标明在该设置下齐全失败，蓝色结果则标志了常识编辑方法在依赖常识上无法漠视的侵害。

关于常识歪曲，咱们在GPT2-XL和GPT-J上启动试验，最终在上表中总结结果。经常使用FT和MEND编辑后的模型中中观察到清楚的常识歪曲，这一点经过它们高IR和FR值获取证明。ROME和MEMIT虽然依然显示出必定水平的歪曲，但与FT和MEND相比，它们的值更低。这标明ROME和MEMIT曾经整合了共同的机制，以在常识编辑时期最小化对大型言语模型隐含常识结构的搅扰。此外，咱们从EASY和HARD场景中观察到一个幽默的现象：当Succ目的到达高值时，FT和MEND不只体现不佳，而且在两个数据集中也显示出最小的变动；相比之下，ROME和MEMIT不只在相对值上显示出好处，而且在EASY和HARD设置中的IR和FR之间也显示出很大的差距，这说明ROME和MEMIT的编辑方法经过语义关联性有效地成功了范围迁徙。同时，咱们发现MEMIT在常识歪曲上体现更好，由于它将参数降级摊派到了多个暗藏层，保障了参数扭转的幅度，从而具备更好的鲁棒性。

五、总结

咱们发现一些较为先进的方法在这些特定场景下容易漠视常识编辑对模型外部常识分歧性的破坏疑问。这种疑问往往是由于这些方法在模型外部常识降级上不够彻底，或许泛化性过强所致。咱们的钻研结果强调了在常识编辑畛域内深化讨论并处置这些疑问的关键性。同时，在对现有常识编辑方法启动试验剖析后，咱们发现虽然常识编辑在处置复杂常识结构方面相比于微调有好处，但它依然难以防止对言语模型中的常识结构形成潜在破坏。

作者：

关注微信

上一篇：智谱版Sora正式开源！ 6秒直出电影级画质 4090单卡可

下一篇：如何评价大言语模型生成结果的多样性

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：http://www.duobeib.com/diannaowangluoweixiu/5749.html

言语模型常识编辑的鲁棒性钻研

一、引言

二、背景

三、钻研方法

四、试验剖析

五、总结

猜你喜欢

热门标签

随便看看

TCP发送窗口接纳窗口以及其上班原理

I 如何发现 PostgreSQL 和中那些消耗 CPU

如何改良DevOps上班流

安保无大事安保防范从Nginx性能做起程序员安保规范

斯坦福学者提出Edu

热门资讯

阅读排行

物联网下一个云计算市场

Cloud

浅谈数据库产品定位与价值链打造

Yann LeCun 智力无法凑近人类大模型方向错了

子组件修正你学会了吗 Vue 值经常出现的失误写法 Props

关注我们

言语模型常识编辑的鲁棒性钻研

一、引言

二、背景

三、钻研方法

四、试验剖析

五、总结

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号