LLama2具体解读

  • 电脑网络维修
  • 2024-11-15

一、概述

Llama 2: Open Foundation and Fine-Tuned Chat Models

论文地址: Llama 2: Open Foundation and Fine-Tuned Chat Models

代码: ​ ​​ ​

官方: ​ ​​ ​

1Motivation

2.1 全体架构

总结1: 参考InstructGPT[1],关键还是分为三个步骤(预训练、SFT、RLHF),其中RLHF用了两个Reward Model(Safety Reward Model、Helpful Reward Model), 翻新性地引入两个Reward模型,在保障安保性的同时,坚持很好的有用性。

总结2: 在RLHF阶段,始终 迭代优化鼓励模型 增强模型才干 关于确保鼓励模型坚持在散布范围内至关关键,本文前面的试验中,看到从最开局与chatgpt对比只要10%的胜率,用了本文提到的SFT和迭代RLHF后,胜率可高达60%。

总结3: Rejection Sampling(拒绝采样):强化学习方法的一种,每次采样多个结果,选取最佳的k个结果构建新的训练数据,降级梯度,同时迭代优化模型成果。

2.2 颁布LLAMA2和LLAMA2-CHAT

总结1: 本次同时颁布了基座模型LLAMA2和Chat模型LLAMA2-CHAT,参数在7B、13B、70B都有。

总结2: 在新的地下的混合数据来训练,语料库的大小参与了40%,将型的高低文长度参与了一倍,驳回了分组查问留意力机制。

2.3LLAMA2和LLMA1训练状况对比

说明: Llama 2系列模型。一切模型都经常使用4M token启动训练。其中更大的模型34B和70B模型经常使用分组查问留意力(GQA)来提高推理可裁减性,7B和13B还是通用的留意力机制。

总结1: 相关于llama1,llama2的窗口长度翻倍,训练tokens翻倍。

总结2: 经常使用分组查问留意(GQA)来 提高推理可裁减性

Grouped Query Attention: 在惯例的留意力机制中,咱们 理论将一个查问与一组键(key)和值(value)启动婚配 ,以便在口头各种义务(如翻译、问答等)时聚焦于相关消息。而在 "grouped query attention" 中, 将多个查问作为一个组一同启动处置,从而引入了查问组之间的交互 。这种留意力机制的一个运行场景是在多轮对话了解中,例如问答系统或对话生成模型。在多轮对话中,每一轮对话可以被视为一个查问组,其中每个查问示意一个轮次的输入。经过引入 "grouped query attention",模型可以更好地捕捉到不同轮次之间的消息流动和高低文关联,从而更准确地理解和生成照应。总之,"grouped query attention" 是一种留意力机制的变种,用于处置多组查问之间的交互, 特意实用于多轮对话了解等场景,有助于提高模型的高低文了解和消息交互才干。

3 Conclusion

3.1 全体状况:远超开源大模型,除代码才干外追上了ChatGPT

大模型评价维度: 普通从代码,知识推理,环球知识,阅读了解,数学,比拟热的几个数据集包括MMLU,BBH,AGI Eval等方面来评价。

3.2 LLAMA2的Helpfulness体现

总结1: LLama-2 70b模型与chatgpt-0301的 GSB评分为35.9:31.5:32.5 ,Llama2-70b有用性比ChatGPT-0301还要好点。

总结2: GPT4智能评价,绿色区域标明,LLama-2的模型更好,为了消弭平局,经常使用了赢/(赢+输)来计算分数。

3.3 LLAMA2的Safety体现

总结: Llama-2 70b-chat违犯安保的比例低于5%,比ChatGPT0301高于5%还要好,虽然评测有必定局限性。

二、预训练和Fine-tuning

1 预训练训练loss变动状况

总结1: 对比Llama1,PPL最终是到1.6左右,这里Llama2-70B到1.5了。

总结2: 观察到启动2T tokens预训练后, 模型依然没有任何饱和迹象 ,还能继续加数据继续训!!!

总结3: tokenizer方法和LLAMA1一样,包括:BPE编码,SentencePiece切词,32K。

2 有监视SFT关键是高品质的数据

总结: SFT数据的品质比数量更关键,本文发现开源的一些数据量比拟大,然而多样性和品质都不太好,本文最终搜集了 27540条高品质的数据来训练,成果有显著的改善

3 人类偏好数据搜集(百万级别)

总结1: 搜集了现有的开源的和meta搜集的数据集,总共290万,其中Meta整顿了141万。

总结2: 人类偏好的标签包括2种反应,chosen或许rejected,觉得不是特意细。

总结3: 还剖析了各种偏好数据的比拟的次数、每个对话的平均轮次、每个例子、每个揭示和每个回答的平均token数等目的。

4 各种大模型在Meta偏好数据上的体现

总结1: GPT4在人类偏好数据集上成果都比拟高。 GPT4没有在Meta数据集上训练过,然而成果也是比拟好的,然而比经过Meta数据训练的RM的成果还是要差一些。

总结2: 经过人类偏好数据集训练的Reward model能大幅优化在该畛域的偏好成果。 在Meta Safety以及Meta Helpful数据集上,经过对应场景数据训练的RM,Safety RM和Helpfulness RM在各自的畛域都是最好的,比GPT4都要好。

5 Reward model成果和模型尺寸的相关

总结: 数据越多,模型越大成果越好,70b的Reward模型更好的概率在80%+,13b的Reward模型更高的概率在75%-76%左右。

6 RL迭代训练(PPO和Rejection sampling fine-tuning)是关键的制胜法宝

总结1: 在强化学习阶段,始终迭代优化模型成果,关键探求了两种不同的RL算法来迭代优化,PPO和Rejection Sampling fine-tuning算法。

总结2: Rejection Sampling fine-tuning 是一种从模型生成多个候选输入,经过鼓励机制选用最佳输入,并将选定的输入用于梯度降级和微调的方法。这个方法在之前的钻研基础上启动了拓展,使得模型可以经过选用的输入来进一步优化自身。

总结3: 拒绝采样和ppo的不同。宽度:在拒绝采样中,该模型为给定的揭示探求K个样本,而PPO只探求1个样本。深度:在PPO中,在步骤t的训练时期,样本是上一步梯度降级后t-1的降级模型战略的函数。在拒绝采样微调中,咱们在运行相似于SFT的微调之前,依据模型的初始战略对搜集新数据集的一切输入启动采样。因为运行了迭代模型降级,两个RL算法之间的基本差异不那么显著。

论断: 拒绝采样可以从多个样本中,选用更好的样原本训练迭代模型,采样的个数越多,成果越好。同时温度系数越高,多样性越高成果越越好。

总结1: 只在70B的LLAMA2-CHAT上经常使用了拒绝采样,其余小模型都是从大模型蒸馏过去。

总结2: 总共RL迭代了5轮,在RLHF(V4)之前,只经常使用拒绝采样微调,之后,咱们按顺序将两者联合起来,在再次采样之前在结果的拒绝采样checkpoint上运行PPO。

7 应用GAtt方法来优化多轮问答中对系统指令的遵照才干

说明 :在多轮问答中,经常会遗记系统指令,如左图所示遗记用emojis来回答的指令,前面用GAtt技术优化后,左边有显著改善。

GAtt方法 :觉得是一种新的attention方法,关于第一条指令或许系统指令提供的留意力更强。

8 LLAMA2-CHAT的演化环节(RLHF迭代5轮的变动状况),成果十分强!

总结1: RLHF总共迭代了5次,每次迭代都有优化,其中前4次用的是拒绝采样来训练,v5用上了ppo优化更大。

总结2: RLHF带来的优化是比拟显著的,从对chatgpt10%的胜率优化到了60%+。

9 人工评价有用性

总结: 在helpfulness prompts上,比其余开源模型成果要更好,甚至比闭源的chatgpt都要好一点。

三、Safety

1 在训练数据中引入更安保的数据

总结1: 安保的数据越多,成果越好,helpfulness坚持稳固

总结2: 随着更多安保训练数据的参与,较低的安保RM分数(即最不安保的回答)逐渐隐没,代表安保分十分低的结果越来越少。

2应用Context distillation方法优化安保性

Context distillation方法: 指在高低文中引入额外限度优化安保性的方法,这里提供了两种方法如下:

方法1: Generic Preprompt:优化回答中不应该包括任何有害的、不品德、或许有成见的内容。

方法2: Preprompt with Answer Template:给出答案的模版,指点或许不安保的行为该如何回答。

论断1: 采取通用的预揭示方法(Generic Preprompt)会提高安保RM分数,但带有定制答案模板的预揭示(Preprompt with answer Template)会更有协助。

论断2: 随着原始安保分的参与,Context Distillation带来的优化越来越小,甚至对高分数的样本带来负面影响,所以本文只在能优化安保分的样本上经常使用context distillation技术。

3 Red Teaming

目的1: 主动危险识别或许不太够,这里还提出要主动危险识别来优化,本文把他叫做Red Teaming,关键用于剖析哪些状况下或许会形成毒性的结果。

目的2: 安保是一个长尾疑问,即使十分不频繁的case也会造成重大的结果。

发现的llm攻打特点:

• [早期模型]更有或许生成不安保的照应,而没有留意到它们蕴含有疑问的内容。[稍晚的模型]能够发现有疑问的内容,然而还是不可防止不输入。[最新模型]能够处置这些疑问。

• 创意写作恳求(歌曲、故事、诗歌等)或许会让他生成之前会剧烈推戴的内容(回避监管机制,生成不安保的内容)。

• 在踊跃的高低文中嵌入有疑问的恳求,例如经常使用踊跃、进取、富裕能量的疑问启动覆盖,是最有效的攻打方法。

4 Safety Evaluation of Llama 2-Chat

总结: 不同尺寸的LLAMA2系列模型中,都有更好的安保性,同时有用性也十分不错。

总结: 多轮问答的有害性比单轮问答的有害性对别,参与比拟多,然而LLAMA2系列模型都比其余模型好,34b的模型有点奇异,本文也没有开源。

总结: 比拟了多个角度,包括有害的,合法的,低品质三大类状况下个模型的违反比例,LLAMA2系列体现都不错,34b的模型体现有点奇异没有开源。

四、Discussion

1 SFT模型到RLHF方法给Reward model score散布带来的变动

总结: 最还是的mix数据训练的SFT,低分数的比拟多,随着应用标注数据,成果有了显著的优化,同时应用RLHF,取得高分数的样本越来越多,说明成果越来越好。

2 RLHF降低模型结果的了多样性

总结1: 温度越高,多样性越好,然而做了RLHF后,多样性有了显著的降低。

总结2: Creative Prompts还能维持较高的多样性,同时上文也提到,或许更容易被攻打,所以觉得多样性和有毒性确实是一个须要掂量的环节。

五、思索与总结

总结: 本文关键从预训练、Fine-tuning、Safety这几个角度来引见了LLAMA2,其中 引入高品质的数据,屡次迭代优化Reward Model是十分关键的一步

总结1: 训练数据品质十分关键。 相关于多而品质不高的数据,SFT环节中,搜集27540条高品质的数据就能有十分大的优化。

总结2: RLHF对对齐人类观点还是十分关键的。 LLAMA2经常使用RLHF迭代训练后,对chatgpt的胜率从开局的10%的胜率优化到了60%+。

总结3:模型越大,数据量越多,Reward Model的成果就越好。

总结4:优化安保性可以在训练数据,SFT,RLHF多个方面启动优化。 引入更安保的数据,可以降低毒性十分高的结果。引入RLHF,可以进一步提高输入结果的Reward Model分数。

总结5:引入Context distillation方法也可以有效的优化安保性。 通用的不能输入毒性结果的指令能够带来必定优化,同时对毒性结果启动后处置,能够更进一步优化安保性。

总结6:多轮问答比单论问答有更高的发生毒性回答的概率。 本文应用GAtt方法来优化多轮问答的安保性。

总结7:安保性和多样性是须要掂量的。 在看到RLHF对齐人类观点的同时,也要看到其多样性就义比拟大。同时假设多样性比拟高,也使其更有或许发生不安保的内容。

本文转载自​​,作者:

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:http://www.duobeib.com/diannaowangluoweixiu/5789.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号