优化大模型推理效率多token预测 Meta等最新钻研

电脑网络维修
2024-11-15

GPT-4、Gemini系列、Llama-3等开闭源大模型，理论经常使用的是下一个token预测（Next-token Prediction）的损失函数启动预训练。

这种方法只管弱小，但有很多局限性，例如，须要少量的训练数据才干使模型到达人类儿童的智商，并且随着模型参数的增大推理效率会变差。

因此，Meta、巴黎理工大学和巴黎萨克雷大学提出了一种全新训练方法多token预测（Multi-token Prediction）， 在训练的环节中要求模型在每个位置上同时预测接上去的n个Token，以优化模型推理效率，并且不会参与预训练期间 。

钻研人员在130亿、67亿、30亿等多种不同参数的模型对该技术启动了综合评价。结果显示，130亿参数模型在 HumanEval上处置疑问才干提高了12%，在 MBPP上处置才干提高了17%，并且推理效率也更好。

论文地址：

多token预测架构引见

为了有效成功多Token预测,钻研人员设计了一种奇妙的模型架构。该架构蕴含一个共享的Transformer骨干网络,用于从输入失掉高低文示意。

而后该高低文示意被并行输入到n个独立的输入头网络中,每个输入头担任预测一个未来Token。在推理阶段,只有经常使用单个下一Token预测，输入头即可启动自回归生成。而其余输入头则可被用于减速模型的推理效率。

关于训练语料中的每个位置，模型须要经常使用独立的输入头预测接上去的n个Token。将多Token预测作为辅佐训练义务，可以提高模型在代码和人造言语文本方面的义务功能，而不会参与训练期间。

降落GPU内存经常使用

为了处置多token预测或者造成GPU内存经常使用量参与的疑问，钻研人员开发了一种前向和后向流传顺序，模型能够缩小在内存中同时存储的梯度数量，从而降落了内存经常使用量使得训练愈加高效。

在前向流传环节中，模型会首先经过共享骨干生成潜在示意，而后按顺序计算每个独立输入头的前向流传。关于每个输入头，计算终了后立刻启动后向流传，并监禁该头的两边数据，而不是等到一切输入头的前向流传成功后才启动。

在每个输入头的后向流传中，累积梯度到共享骨干，而不是在一切输入头计算终了后才启动。这样可以确保在任何时刻，内存中只存在一个输入头的梯度。

优化推理效率

钻研人员发现，将多token预测与自推测解码相结合，可以进一步优化大模型的推理效率。与传对抗一token解码不同的是，自推测解码准许模型一次性性生成多个token，而后应用额外的输入头并行验证和优化这些预测。

这种方法清楚缩小了模型生成文本所需的步骤，从而放慢了模型的全体推理效率并缩小了对算力的消耗。

钻研人员在不同参数的模型试验了该优化效果，结果显示，比传统的优化推理效率优化了3倍左右。

原文链接:

关注微信

上一篇：Sam GPT Altman

下一篇：Arctic

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：https://duobeib.com/diannaowangluoweixiu/5837.html

优化大模型推理效率多token预测 Meta等最新钻研

猜你喜欢

热门标签

随便看看

TCP发送窗口接纳窗口以及其上班原理

I 如何发现 PostgreSQL 和中那些消耗 CPU

如何改良DevOps上班流

安保无大事安保防范从Nginx性能做起程序员安保规范

斯坦福学者提出Edu

热门资讯

阅读排行

腾讯先锋打开麦克风操作方法怎么打开麦克风

脚本编写技术 Bash 五个不为人知的现代

算法搞懂了！！终于把 Seq2Seq

如何熟练操作 Linux？学习目录文件操作命令 cd 是关键

向日葵远程怎么控制电脑操作

关注我们

优化大模型推理效率 多token预测 Meta等最新钻研

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号

优化大模型推理效率多token预测 Meta等最新钻研