更弱 更小 经过计算最优抽样训练大言语模型推理器 却更优

  • 电脑网络维修
  • 2024-11-15

一、论断写在前面

论文题目:Smaller, Weaker, Yet Better: Training LLM Reasoners via Compute-Optimal Sampling

论文链接:​ ​​ ​

应用来自弱小言语模型(LMs)的高品质分解数据启动训练是优化LMs推理性能的经常出现战略。论文从新扫视了在固定推理估算(例如,FLOPs)下,这一战略能否为计算最优。为此,论文探求了经常使用更强但更低廉(SE)模型与较弱但更廉价(WC)模型生成分解数据之间的权衡。

论文评价了生成数据在三个关键目的上的体现:笼罩率、多样性和误报率,并标明WC模型生成的数据或许具备更高的笼罩率和多样性,但也体现出更高的误报率。

随后,论文在不同设置下对LMs启动微调:常识蒸馏、自我改良以及一种陈腐的弱到强改良设置,其中较弱的LM向较强的LM教授推理才干。论文的钻研发现,在多个基准和多种WC与SE模型选用下,基于WC生成数据微调的模型一直优于那些基于SE生成数据训练的模型。这些结果应战了依赖SE模型生成分解数据的干流做法,标明WC或许是训练初级LM推理器的计算最优途径。

一个详细例子是:关于Gemma2系列在MATH数据集上,Gemma2-9B成功了11%更高的笼罩率和86%更高的多样性,但也随同着7%的更高FPR,相比于Gemma2-27B。

图 1 | 结果总结。(a) 论文在计算婚配的设置下,经常使用从更弱小但更低廉的LM(Gemma2-27B)和较弱但较廉价的LM(Gemma2-9B)搜集的分解数据,对Gemma-7B、Gemma2-9B和Gemma2-27B启动微调,用于MATH数据集。论文发现,在多种微调范式——常识蒸馏、自我改良和弱到强改良(即使用较弱的模型来改良较强的模型)中,经常使用Gemma2-9B数据启动训练是更计算优化的设置。(b) 论文在多少钱婚配的设置下,经常使用由最先进的LM Gemini-1.5-Pro和Gemini-1.5-Flash生成的分解数据,对Gemma模型(7B/9B/27B)启动微调。论文发现,经常使用Flash生成的数据启动微调一直优于经常使用Pro生成的数据。

二、论文的便捷引见

2.1 论文的背景

最近的钻研标明,经过言语模型自身分解生成这些数据是可行的,这为训练数据的失掉提供了一种潜在的更具裁减性和效率的方法。一种宽泛驳回的方法是从LM中为一个疑问采样多个候选处置打算,过滤它们以确保最终答案的正确性,并在正确的处置打算上对模型启动微调。多项钻研标明,经常使用这种分解处置打算训练的LM优于经常使用人类编写的处置打算训练的LM。从业者通常从弱小的LM中采样处置打算以确保高品质。但是,从弱小的LM中采样是低廉且资源密集型的,并且限度了在实践采样估算内可以生成的处置打算数量。

论文探求了一种代替采样方法。在固定的计算估算下,论文钻研了从较弱但更廉价(WC)模型采样,而不是通常驳回的从较强且低廉的微调LM(stronger but more expensive,SE)采样的方法。经过比拟WC和SE的数据,论文沿着三个在分解数据成效中起关键作用的方向启动剖析:1-笼罩率,处置的共同疑问的数量;2-多样性,每个疑问取得的平均共同处置打算数量;以及3-假阳性率(FPR),即以失误理由得出正确最终答案的疑问百分比。

论文发现,由于可以从WC模型生成更多的样本,与后者相比,这或许造成处置更宽泛的疑问,并在固定估算下提供更少数据。论文在各种监视微调设置中比拟了这两种分解生成的数据集对训练LM推理器的成效,并显示经常使用WC数据训练一直优于经常使用SE数据训练。作为一个详细例子,关于Gemma2系列在MATH数据集(Hendrycks等人,2021)上,Gemma2-9B成功了11%更高的笼罩率和86%更高的多样性,但也随同着7%的更高FPR,相比于Gemma2-27B。

2.2. 筹备常识

设 D={q_i, a_i} _i=1 ^i=n 为一个蕴含 n 个推理疑问 q_i 及其最终答案(即标签) a_i 的训练数据集。应用此类数据优化模型推理才干的成功方法如下:论文采样k 个样本,其中 r_i j 是模型为 q_i 生成的第 j 个推理链(即处置打算),a_i j 是模型在非零温度下对 q_i 的最终答案,并创立分解数据 D_G={q_i, {( r_i j, a_i j )}_j=1 ^j=k 。

接着,论文经过比拟 a_i j 与 a_i 来过滤失误的处置打算,移除那些最终答案与规范答案不婚配的打算。最后,论文在残余数据 D_G 上监视微调模型,以最大化目的函数

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5648.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号