你或者碰到了大忽悠 NLP模型逾越人类水平

  • 电脑网络维修
  • 2024-11-14

编译:张睿毅、武帅、钱天培

一个军方训练的神经网络宣称可以分类图像中的坦克,但实践上,它只是学会了识别不同的亮度,由于一种类型的坦克仅出如今明亮的图片中,而另一种类型仅出如今较暗的图片中。

一个游戏AI在学会了在第一关的最后故意死去,而不是在更难的第二关的末尾死去,由于这样可以失掉更高的分数。

AI经过某种让人啼笑皆非的奇异形式尝试骗过人类,并到达自己的目的,这样的案例之前文摘菌总结过一少量。

模型经过学习“失误”的消息来处置义务的疑问曾经存在很长期间了,并被称之为“痴呆汉斯效应(Clever Hans effect)”。

该效应说的是,一匹名为汉斯的马看似能实现一些便捷的智力义务,但实践上只是依赖于人们给出的有看法线索。

“痴呆汉斯效应(Clever Hanseffect)”在图像检测畛域早已有之,但最近,在一篇最新论文中,来自台湾国立成功大学的Niven和Kao指出,这一现象也正在NLP畛域大受关注。脱去它的影响后,BERT兴许没有咱们想得那么神奇。

先附上论文链接,再一同看看这个论证环节:

Niven和Kao驳回了一个论证了解数据集。随机选用的准确率为50%;之前体现最好的模型的准确率为71%;而后他们选用了BERT,仅仅微调后,便到达了惊人的77%的准确率。

如此看来,BERT仿佛确实名不副实。

但是,作者对这一看似很成功的“微调”发生了疑心,并尝试对此启动论证。

NLP迎来“痴呆的汉斯”时辰

论证了解是一项相当艰巨的义务,须要环球知识和知识推理。虽然BERT毫无不懂是目前为止最好的言语模型之一,其迁徙学习正是“NLP的Imagenet时辰”,但鲜有证据标明,言语模型曾经习得初级人造言语了解这一技艺。

给定一个论点和一个要素,咱们须要找出使得该推理成立的论据。

举个例子,假定论点是“谷歌不存在垄断”,要素是“人们可以选用不经常使用谷歌”。这一推理成立面前须要一个论据,即“其余搜查引擎并没有导向谷歌”。但是假设说“其余搜查引擎都导向了谷歌”,那么论点就不能成立了。

作者也对BERT模型启动了三项剖析。

首先,他们在或者的答案(即论点)中计算了一元文法(unigrams)和二元文法(bigrams),并观察到像not,is,or之类的单个一元文法相较于随机概率而言,能够更好地预测出正确的论点。这标明这些线索是有用的,并且也或者为模型所应用。

接着,为了审核模型能否确实应用了这些线索,作者只给模型提供了局部输入,这使得模型无法能推出正确答案。例如,假设没有给出论点或要素,就无法能推断出“其余搜查引擎没有重定向到谷歌”或“其余搜查引擎全都重定向到了谷歌”这两个论据哪一个是正确的。但是,模型并不理会这一无法能性,并以71%的准确率识别出了正确的论点。

在实验完其余两项相似的义务之后(仅论点和论据;仅要素和论据),作者总结到,数据集中蕴含着统计线索,而BERT的良好体现齐全归功于对这些线索的应用。

为了说明这一点,在他们的第三个实验中,作者构建了一个数据集,其中的线索不再提供消息,发现BERT性能降低到随机概率水平。

置信大少数人会赞同,一个基于少量的如not,is,do之类的一元文法做出预测的模型是无法能真歪了解论证的。

因此,作者申明他们的SOTA结果毫有意义。

这让人联想到最近两个臭名昭著的案例。一个是图像分类器,宣称能够辨别罪犯的脸孔和违法公民的脸孔,但实践上只是在检测浅笑;另一个是所谓的“性取向检测器”,实则是在检测眼镜,胡须和眼影。

假设NLP追随计算机视觉的脚步,仿佛也注定要重蹈它的覆辙。

回到论文中,作者指出,最近少量的上班显示NLP数据集中的“痴呆汉斯效应”。

要明白的是,这也不是说像BERT这样的大型模型或深度学习都是无用的。但是,关于深度学习模型在初级人造言语了解义务中体现出的近乎人类体现的报告,咱们应该持疑心态度。

模型体现超好?别急着开心,试试能不能骗过它!

发现痴呆汉斯效应案例的论文越来越多,这为NLP钻研提出了关键的新议题。最显著的一个议题就是,如何预防这种影响。

当数据集中的形式与手头义务的指标分歧时,那么能够识别、记住并概括这些形式的模型就是可取的。假设不是的话,那模型就很或者在不了解义务的状况下依然体现良好。

为了防止痴呆汉斯效应,咱们须要更好的数据集,并且对模型启动严厉的鲁棒性剖析。

提出一个模型、并对其启动改良可以让你在开发环节中取得即时的满足感。此外,在公共数据集上的SOTA也可以确保论文被接纳。

但是,创立数据集所取得的的满足感愈加滞后且不确定。听说,ACL会议评审人员对提出失掉SOTA的新模型的论文的自动立场是“接受”,而引入新数据集的论文则很或者由于“本文只引入新数据集”而拒绝。他们以为,创立数据集的人没有做真正的迷信钻研。

移除模型的一局部(ablation)并观察其对性能的影响是验证某部件能否有用的罕用方法。 假设性能没有降低,那么该部件就是无用的,应该被消弭。

这也应该成为口头数据集消弭义务的经常出现做法,例如:

再举个例子。假设在输入中减少一个不关系的句子会造成问答模型给出不同的答案(见下图),就说明该模型并不能真歪了解疑问。

除了创立更好的数据集外,模型的创立者也应该有“建造它,破坏它”(Build It,BreakIt)的心态。模型不只有在特定数据集上取得高分,也要有足够的鲁棒性。

假设你的模型体现优异,先别急着开心!尝试扭转你的输入,看看你能否能能够骗过你的模型。

假设你挖空心理也无法骗过你的模型,大略这时你才发明出了一个真正的好模型!

【本文是专栏机构大数据文摘的原创译文,微信群众号“大数据文摘(id: BigDataDigest)”】

戳这里,看该作者更多好文

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/4252.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号