Scaling 今天最热论文 量化也不论用 Law后继乏力 AI大佬齐刷刷附议

  • 电脑网络维修
  • 2024-11-15

几十万人关注,一宣布即被行业大佬评为“这是很长期间以来最关键的论文”。

哈佛、斯坦福、MIT等团队的一项钻研标明:训练的token越多,须要的精度就越高。

例如,Llama-3在不同数据量下(圆形8B、三角形70B、星星405B),随着数据集大小的参与,计算最优的精度也会参与。

换句话就是,关于大规模的训练义务,低精度的量化或许不再足够有效。

依照论断,对Scaling Law的遵照象征着咱们须要坚持更高精度,但是不时以来,人们通常会选用量化 (将延续值或多精度值转换为较低精度) 来节俭计算资源。

一旦论断成立,GPU的设计和配置或许也须要相应调整,由于传统上,GPU的性能优化局部依赖于对低精度计算的优化。

正如艾伦AI钻研所迷信家所指出的:

与此同时,钻研得出了 两个关键论断

这也引来OpenAI员工大赞特赞:

提出“精度感知”Scaling Laws

一过去,钻研就指出,裁减的焦点关键放在了模型规模、数据量上,漠视了对 精度 的关注。

而理想上,随着模型进一步运行落地,低精度量化正在成为新的范式。

因此,钻研想要搞清:

详细而言,团队钻研了在预训练和后训练 ,随着数据和参数的变动,精度对损失的影响如何变动。

同时,为了准确测量关系变动,团队专门提出了 “精度感知(precision-aware)” 的Scaling Laws,以预测和优化不同精度下的言语模型训练和推理。

先说论断。下图展现了两个关键的试验结果:

详细而言,左侧图表展现了在不同精度下训练模型的成果。

其中纵轴示意最终的验证损失(Val Loss),横轴示意不同的模型规模(Model Size),从30M到220M参数。不同的色彩代表了不同的训练精度,从INT3到INT6,以及没有后训练量化(No PTQ)。

钻研发现,在较低精度下训练模型(例如INT3和INT4)会造成较高的损失,而随着精度的提高,损失会缩小;同时,随着模型规模的参与,损失也会缩小。

另外,右侧图表展现了在不同精度下 启动推理 时的模型性能。

其中横轴示意了推理时的权重精度(Final Val Loss)。

结果显示,在推理时经常使用较低精度(例如INT3和INT4)会造成性能降低,即损失的参与;而随着精度的提高,损失会逐渐缩小,凑近没有启动后训练量化的模型性能。

上述发现也解释了为什么Llama-3难以量化?

要知道,Llama-3颁布后,它因“超15T Token数据上的超大规模预训练”而知名,不过人们起初发现,Llama-3低比特量化性能降低清楚。

这或许正如钻研提到的,模型在预训练阶段看到的数据越多,对量化的敏理性就越高。

与此同时,钻研还发现了:

换句话说,在少量数据上训练的模型,假设在推理时启动低精度的PTQ,或许会造成性能清楚降低。

接上去,团队提出应用“精度感知”Scaling Laws来预测模型在不同精度下的性能,并指出:

其中蕴含两个关键公式,它们造成了一个一致的通常框架,用于预测不同精度下训练和推理的性能。

训练后量化(PTQ)惹起的损失退步预测公式:

思考训练精度的模型损失预测公式:

一致预训练与后训练的精度预测

BTW,钻研最终将后训练量化和预训练量化的影响一致同来,以此成功:

关系公式如下:

同时,为了验证预测的准确性,钻研对超越465次预训练运转的数据启动拟合,并在高达1.7亿参数、训练了高达260亿个token的模型上启动了验证。

并在环节中提出了 以下几点倡导

不过,这项钻研目前也存在必定局限性,比如作者自述经常使用了一个固定的模型架构来控制变量。

这象征着,关系结果或许不适用于经过架构调整的低精度训练模型,由于架构的变动或许会影响模型对精度变动的敏理性。

最后,有网友还想得更远。提出一旦量化失败,还有3条路可以思考:

你怎样看?

参考链接:[1]。[2]。

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/6382.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号