竟在拖LLM后腿 秘方 ChatGPT LeCun联手开怼RLHF! Karpathy

  • 电脑网络维修
  • 2024-11-15

昨天,Andrej Karpathy又发了长推,不过用了一句很有争议的话扫尾——「RLHF只是勉强的RL」。

这条推特堪称「一石激发千层浪」,瞬间扑灭了LLM社区的探讨激情。

毕竟RLHF作为刚提出没几年的方法,又陈腐又有争议。一边遭受质疑,一边又在工业界和学界迅速盛行。

5G冲浪的LeCun也赶来支援Karpathy,但他的话很短,只要一句——「RLHF不是真正的RL」。

RLHF最早可以追溯到OpenAI安保团队2017年宣布的论文:

论文地址:

过后,Jan Leike还在DeepMind、Dario Amodei还没开办Anthropic,而OpenAI还没all in言语模型,仍是一家钻研范围更宽泛的AI公司。

他们提出,经过人类反应,让AI模型更好地学习「如何翻出一个美丽的后空翻」。

训练时,AI agent在环境中始终观察并执行,并获取鼓励模型的反应启动自我改良。但比拟特意的是,鼓励函数是由拟合人类反应获取的。

2019年,这项技术被用到了NLP畛域,用于微调言语模型。

论文地址:

这篇论文附带的代码也很好地定义了RLHF的规范流程。

仓库地址:

到了2022年3月,ChatGPT颁布前夕,OpenAI颁布了经常使用RLHF微调过的大模型InstructGPT,这是弥合GPT-3和GPT-3.5 Turbo之间差距的关键一步,后者为ChatGPT的推出提供了关健能源。

论文地址:

尔后,RLHF就成为了OpenAI、DeepMind、谷歌、Anthropic等AI巨头们训练模型的必备环节。

所以,Karpathy为什么会突然对此发难?咱们先来看一下他的推特原文是怎样说的。

Karpathy原帖的大意如下:

RLHF全称为「从人类反应中启动强化学习」(Reinforcement Learning from Human Feedback),是训练LLM的第三个阶段,也是最后一个关键阶段,接在预训练和监视微调(SFT)之后。

我对RLHF的批判是:它简直算不上是真正的强化学习,而且我以为这一点没有被宽泛了解。强化学习很弱小,而RLHF则不然。

让咱们来看一个AlphaGo的例子,它的训练用到了实践的RL算法:计算机经过下围棋,在最大化鼓励函数(即赢得较量)的推演环节中启动训练,最终逾越了最低劣的人类棋手。AlphaGo并不是用RLHF训练的,否则它的效果就不会这么好。

那么,用RLHF训练AlphaGo会是什么样子呢?首先,你须要让人类标注者看到两个围棋局面,并征询他们更青睐哪个:

你须要搜集大略10万条这类的对比数据,并训练一个「鼓励模型」RM(Reward Model)来模拟人类对棋盘形态的这种「直觉判别」(vibe check),使RM的判别在平均水平上与人类分歧。

有了鼓励模型的直觉判别,就可以在此基础上运转强化学习,让原模型学习下出能够让人类直觉上以为不错的棋步。

显然,这在围棋中不会产出太好的结果,有两个基本且独立的要素:

1. 直觉或许会发生误导。这并不是真正的鼓励(赢得较量),而是个很差的代替指标。但更糟的是——

2.强化学习优化会失控,由于它很快就会发现反抗鼓励模型的棋盘形态。RM是一个领有数十亿参数的宏大神经网络,用来模拟直觉。有些棋盘形态超出了训练数据的散布范围,或许并不是好的形态,但由于偶然性,也会从RM获取了很高的鼓励。

出于齐全相反的要素,有时我惊讶于RLHF对LLM的效果,由于其中的RM也在启动雷同的直觉判别。它对人类评分员仿佛青睐的那类照应打出高分,但这不是正确处置疑问的「实践」指标,只是人类感觉不错的代替指标。

其次,RLHF不能运转太久,由于原模型很快就能学会操控鼓励模型,从而预测出一些看起来很奇异的token。比如,LLM助手会开局对揭示词照应一些无厘头的内容,像「the the the the the the」。

这在人类看来很荒唐,但由于某种要素,RM以为这些照应看起来很棒。

这就是LLM找到的反抗性案例(adversarial examples),关于RM的训练数据而言,这是未定义畛域的散布外数据。

你可以重复将这些特定例子增加到训练集中来缓解这种状况,但下次还会有其余反抗性案例发生。因此,RLHF不能运转过多步骤,几百/几千步后就必定停下,由于模型的优化环节将开局操控RM。这不是像AlphaGo那样的强化学习。

但是,在构建LLM助手时,RLHF照旧是利大于弊。其中有几个巧妙的要素,但我最青睐指出的是,LLM可以经过RLHF环节受益于生成器和判别器之间的难度差距(generator-discriminator gap)。

关于许多类型的疑问,相比于从零开局撰写理想答案,人类标注者会感觉从几个候选当选用最佳答案要容易得多。比如这样的揭示:「生成一首关于回形针的诗」,个别的人类标注者很难写出一首好诗作为SFT示例,但在给出几个候选答案的状况下,他们可以选出一个看起来不错的诗。

因此,RLHF相当于应用了这种人类监视的「简便性」差距。

还有其余几个要素,例如,RLHF也有助于缩小幻觉现象。假设RM是一个足够弱小的模型,可以捕捉到LLM的虚拟内容,就能经过低鼓励来处罚这种行为,教会模型在不确定时防止冒险经常使用理想知识。但对幻觉及其令人满意的缓解措施是另一个话题,此处不再赘述。

总之,RLHF确实是净有用的,但它不是传统的强化学习。

迄今为止,在开明畛域还没有发生消费级的「实践」RL方法,可以大规模地在LLM上成功,并给出令人信服的演示。从直观上讲,这是由于在开明式的疑问处置义务中给出鼓励值(等效于AlphaGo赢得较量)确实很艰巨。

在一个敞开的、相似游戏的环境中,比如围棋,灵活遭到限度,鼓励函数易于评价且不可操控。但你如何为总结一篇文章提供明白的鼓励?或许回答关于pip装置的略显含糊的疑问?或许讲个笑话?或许将一些Java代码重写为Python?

准则上,朝这个方向开展是或许的,但并不便捷,它须要一些发明性的思索。假设有人给出令人信服的处置打算,就能运转实践的强化学习,那种让AlphaGo在围棋中击败人类的强化学习,只是最后获取的LLM将有或许在开明畛域疑问处置中击败人类。

强化学习究竟是什么

假设RLHF「不是RL」,那真正的RL是什么?

Karpathy的形容比拟繁复而直观——就是AlphaGo用的那种。

幸亏,「强化学习」是一团体为提出的概念,更容易厘清;而且「强化学习之父」Richard Sutton专门写过一本书来解释这个畛域的基本疑问。

扫尾第一章第一节,强化学习的基本概念。只管不是谨严完备的数学定义,但基本说明了要点。

除了agent和环境的存在,强化学习系统中还有以下四个要素:

那么疑问来了,依据Sutton书中对强化学习的定义,你赞同Karpathy的说法吗?

谁赞同,谁推戴?

十分显著的是,Karpathy的观念吸引了许多LLM畛域的学者和钻研员的关注。

谷歌大脑、DeepMind钻研迷信家Kevein Murphy:

Allen AI机器学习钻研员Nathan Lambert回复:

这张图出自Lambert自己撰写的博客:

之后,他又专门发推动一步解释:

很稀有的是,以上是为数不多力挺Karpathy的观念。少数人还是站在了Karpathy的统一面反驳他。

评论区有网友间接回怼:「你就是看鼓励函数不悦目」。

Karpathy只能继续解释:

马里兰大学副传授Furong Huang的观念更强调RLHF对LLM的价值。

Mila在读博士、Meta钻研员Pierluca D'Oro自己就在为agent开发鼓励模型,他赞同Karpathy「RLHF不是真正的RL」的说法,但并不以为Karpathy预期的那种鼓励模型能够成功。

华盛顿大学助理传授、谷歌AI初级钻研迷信家Natasha Jaques的推戴态度更显明,力挺RLHF方法:

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5595.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号