优化大模型推理效率 多token预测 Meta等最新钻研

  • 电脑网络维修
  • 2024-11-15

GPT-4、Gemini系列、Llama-3等开闭源大模型,理论经常使用的是下一个token预测(Next-token Prediction)的损失函数启动预训练。

这种方法只管弱小,但有很多局限性,例如,须要少量的训练数据才干使模型到达人类儿童的智商,并且随着模型参数的增大推理效率会变差。

因此,Meta、巴黎理工大学和巴黎萨克雷大学提出了一种全新训练方法多token预测(Multi-token Prediction), 在训练的环节中要求模型在每个位置上同时预测接上去的n个Token,以优化模型推理效率,并且不会参与预训练期间

钻研人员在130亿、67亿、30亿等多种不同参数的模型对该技术启动了综合评价。结果显示,130亿参数模型在 HumanEval上处置疑问才干提高了12%,在 MBPP上处置才干提高了17%,并且推理效率也更好。

论文地址:

多token预测架构引见

为了有效成功多Token预测,钻研人员设计了一种奇妙的模型架构。该架构蕴含一个共享的Transformer骨干网络,用于从输入失掉高低文示意。

而后该高低文示意被并行输入到n个独立的输入头网络中,每个输入头担任预测一个未来Token。在推理阶段,只有经常使用单个下一Token预测,输入头即可启动自回归生成。而其余输入头则可被用于减速模型的推理效率。

关于训练语料中的每个位置,模型须要经常使用独立的输入头预测接上去的n个Token。将多Token预测作为辅佐训练义务,可以提高模型在代码和人造言语文本方面的义务功能,而不会参与训练期间。

降落GPU内存经常使用

为了处置多token预测或者造成GPU内存经常使用量参与的疑问,钻研人员开发了一种前向和后向流传顺序,模型能够缩小在内存中同时存储的梯度数量,从而降落了内存经常使用量使得训练愈加高效。

在前向流传环节中,模型会首先经过共享骨干生成潜在示意,而后按顺序计算每个独立输入头的前向流传。关于每个输入头,计算终了后立刻启动后向流传,并监禁该头的两边数据,而不是等到一切输入头的前向流传成功后才启动。

在每个输入头的后向流传中,累积梯度到共享骨干,而不是在一切输入头计算终了后才启动。这样可以确保在任何时刻,内存中只存在一个输入头的梯度。

优化推理效率

钻研人员发现,将多token预测与自推测解码相结合,可以进一步优化大模型的推理效率。与传对抗一token解码不同的是,自推测解码准许模型一次性性生成多个token,而后应用额外的输入头并行验证和优化这些预测。

这种方法清楚缩小了模型生成文本所需的步骤,从而放慢了模型的全体推理效率并缩小了对算力的消耗。

钻研人员在不同参数的模型试验了该优化效果,结果显示,比传统的优化推理效率优化了3倍左右。

原文链接:​ ​​ ​

  • 关注微信
上一篇:Sam GPT Altman
下一篇:Arctic

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5837.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号