2万亿token碾压Llama 反派新架构掀翻Transformer!有限高低文处置 2

  • 电脑网络维修
  • 2024-11-15

继Mamba之后,又一勇于应战Transformer的架构降生了!

来自Meta、南加州大学(USC)、CMU和UCSD的钻研人员提出了全新的神经网络架构——Megalodon(巨齿鲨)。

这是专为有效处置「有限高低文」长度的LLM预训练,以及推理而设计的架构。

论文地址:​ ​​ ​

咱们都知道,Transformer架构个在处置长高低文时,会遭到二次复杂度,以及长度外推才干弱的限度。

虽然已有次二次方处置打算(诸如线性留意力,形态空间模型),但它们在预训练效率,甚至下游义务的准确率上,理论还不迭Transformer。

Megalodon的产生,就是为了处置有限处置高低文的难题。

同时,它可以同时成功高效训练(增加通讯和计算量),以及高效推理(坚持恒定的KV缓存)。

值得一提的是,在与Llama 2的间接比拟中,Megalodon在处置70亿参数和2万亿训练token的义务上,不只训练更高效,而且准确率也超越了Transformer。

详细来说,Megalodon的训练损失为1.70,位于Llama2-7B(1.75)和 13B(1.67)之间。

这一扭转范式的翻新代表着AI畛域的渺小飞跃,Megalodon开启了计算效率和性能的新时代。

GPT-3颁布以来最大里程碑

网友示意,先是谷歌,又是Meta,有限高低文离咱们更进一步,LLM将会监禁出有限后劲。

还有人以为「有限高低文长度,相对是游戏规定的扭转者」!

更有甚者,初创公司CEO称,「这是自GPT-3颁布以来最大的里程碑,但却没有任何动态?!

Megalodon就相当于是AGI的基础」。

「Meta的Megalodon是一项打破性停顿,对AGI具备关键意义。它的有限高低文长度模拟了人类的认知,成功了无缝义务切换」。

论文作者Hao Zhang示意,这是一种全新代替Transformer的架构。

论文作者Beidi Chen称,「留意力虽好,但你不要求完整的留意力机制」!

普林斯顿助理传授Tri Dao示意,「将SSM/RNN/EMA与留意力相联合是取得更高品质、更长高低文和更快推理的方法!Griffin、Jamba、Zamba和如今的Megalodon都是很好的例子」。

反派性架构,训练更稳固

那么,Megalodon架构驳回了怎么的设计,才干取得如此优秀的体现?

据引见,它基于MEGA架构启动了改良,并新增了多个技术组件。

首先,复杂指数移动平均(CEMA)组件是一种全新技术,裁减了MEGA中经常使用的多维阻尼指数移动平均方法到双数域,可以增强模型处置复杂数据的才干。

其次,钻研人员提出了一种翻新的归一化技术——「时期步归一化层」。

它将传统的组归一化技术裁减到自回归序列建模义务中,准许模型在处置序列数据时,启动有效的归一化。

以往,「层归一化」(Layer Normalization)与Transformer相联合性能,虽令人印象深入。

但很清楚,层归一化并不能间接增加时期步长或顺序维度的外部协变量偏移。

另外,「组归一化」(Group Normalization)虽比「层归一化」在CV义务中取得改良,但它却不可间接运行于Transformer的自回归序列建模,因未来消息会经过期期步维度的均值和方差走漏。

如下图所示,c展现了Megalodon架构中,层规范化和时期步规范化的方法。

最后,钻研人员为了加弱小规模LLM预训练的稳固性,提出了将归一化留意力,和带有两跳残差的预归一化相联合的性能。

这种性能可以优化模型的学习环节,提高训练的稳固性。

下图3中,a是Megalodon的完整框架草图。

两边和左边两张图区分引见了,预归一化和带有两跳残差预归一化的性能。

2T token训练,性能逾越Llama2-7B

在详细试验评价中,钻研人员将Megalodon裁减到70亿参数规模,并将其运行于2万亿token的大规模LLM预训练中。

此外,作者还在中/小参数规模的序列建模基准上启动了试验,包含Long Range Arena (LRA) 、Speech Commands上的原始语音分类、ImageNet-1K上的图像分类,以及WikiText-103和PG19上的言语建模。

结果显示,在这些义务中,Megalodon在各种数据形式下的体现清楚优于一切最先进的基线模型。

数据学习效率

经过训练损失图以及多个benchmark的结果可以看出,Megalodon比Transformer在7B参数下有更好的数据学习效率。

计算效率

针对不同的4K和32K高低文长度,Megalodon这一架构的预训练的计算效率也是十分强的。

学术基准上短高低文评价

详细来说,钻研人员在短高低文(4K token)的规范学术基准上,对Megalodon与Llama 2,以及开源基础模型启动了比拟。

在相反的2万亿token训练后,Megalodon-7B的体现清楚优于Llama2-7B。

长高低文评价

针对不同长高低文困惑度,证实了Megalodon可以应用很长的高低文启动下一个token预测的才干。

图5显示了,验证数据集在4K到2M各种高低文长度下的困惑度(PPL)。

在Scroll数据集中的长高低文QA义务中,Megalodon在NaQA上取得最佳F1,并与Llama 2 Long相竞争。

中等规模基准评价

在Long Range Arena(LRA)的测试中,新架构清楚增加了分块留意力和全留意力之间的性能差距。

其余评测集,如原始语音分类、ImageNet-1K、WikiText-103和PG-19的结果如下:

一些感想

这里quote一下这项钻研原作者的一些感悟和教训:

经过这个名目,钻研者们也体会到了在大模型时代做新的模型架构时要留意的疑问。总结来说:

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/6025.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号