清华团队改造MoE架构!像搭积木一样构建大模型 提出新型类脑稀疏模块化架构

  • 电脑网络维修
  • 2024-11-15

探求更高效的模型架构, MoE是最具代表性的方向之一。

MoE架构的关键长处是应用稀疏激活的性质,将大模型拆解成若干性能模块,每次计算仅激活其中一小局部,而坚持其他模块不被经常使用,从而大大降低了模型的计算与学习老本,能够在等同计算量的状况下发生性能长处。

但是,此前像MoE等应用稀疏激活性质的钻研上班,都以为大模型须要在预训练阶段就额外引入模块化结构解放。

如今,来自清华的一项最新钻研冲破了以上思想定式,并将MoE架构启动了改造。

详细而言,钻研人员受启示于人脑高效的稀疏模块化架构,在论文《Configurable Foundation Models: Building LLMs from a Modular Perspective》中提出了一种类脑高效稀疏模块化架构:Configurable Foundation Model。

该架构将大模型的模块拆分为预训练阶段发生的涌现模块(Emergent Brick)与后训练阶段发生的定制模块(Customized Brick),而后经过模块的检索、组合、降级与增长可以高效地成功复杂性能性能与组合,因此,将这一类模块化模型架构命名为“Configurable Foundation Model”——可性能的基础模型。从此,训练大模型无需在预训练阶段就像MoE架构一样引入模块化结构解放,而是可以在预训练阶段发生涌现模块之后,像搭积木一样来构建大模型!

如下图所示,大模型看做是一个大的积木,将其依照性能拆分红一个一个小模块之后,给定一个指令时,咱们仅需决定局部关系的模块组成子模型即可成功义务。

该钻研提醒了「模块化」是大模型自身自带的性质,一切 Transformer-based 大模型的预训练和后训练等上班都可以经过模块化的视角启动解构,其中MoE、Delta tuning只是Configurable Foundation Model蕴含的一种路途。

Configurable Foundation Model架构具有高效性、可复用性、可溯源性、可裁减性,并且更适宜散布式计算,能够更好地符合未来大模型在端侧部署、在宽泛的场景中经常使用、在新环境中退化的未来趋向。

论文链接:

论文单位:清华大学、加州大学圣地亚哥分校、卡耐基梅隆大学、面壁智能、中国人民大学、普林斯顿大学、新加坡国立大学、斯坦福大学和加州大学洛杉矶分校。

可性能的大模型 —— 涌现模块与定制模块

钻研人员形容了涌现模块和定制模块两种模块类型及其构建模式。

1. 涌现模块

随机初始化的模型参数,在预训练环节中,模型神经元将会自发地发生性能分化的现象,进而组成了大模型的性能分区。在推理阶段,只要与输入内容关系的性能分区会被激活,并作用于模型的输入结果。

在该机制造用下,许多钻研努力于开掘大模型神经元的稀疏激活性质与性能定位:

稀疏激活:

最早应用稀疏激活性质的模型架构为稀疏混合专家模型,它经过预约义的模块化结构,强迫每个词仅能经常使用局部专家启动计算。

进一步地,在浓密训练的模型中,神经元雷同存在稀疏激活现象:在解决每个词语环节中,少量神经元激活值的相对值很低,不可对输入发生有效奉献。稀疏激活的性质使得咱们可以训练高效的参数决定器,在推理时灵活决定参数启动计算,以降低计算开支。

性能定位:

与人脑相似,大模型神经元在预训练后发生了性能分化,各自仅担任局部性能。目前曾经被宽泛发现的性能神经元包括:

这些性能神经元的发现进一步佐证了大模型具有与人脑一样启动高效稀疏化推理的后劲。

2. 定制模块(插件)

预训练之后,咱们往往须要对模型启动后训练,从而将模型与人类需求对齐,并增强包括畛域才干和义务才干在内的模型才干。最近的钻研标明,后训练环节中参数变动实质上是低秩的,这象征着该环节只训练少局部参数。受这些发现的启示,多样化的定制模块(插件)被提出。

其中,最广为人知的是经过少参数微调构成的义务模块,坚持模型主体参数不变,仅微调大批的义务关系参数。进一步地,许多钻研发现,小规模的外部插件,不只可以赋予大模型义务特定的才干,还可以为它们补充更多额外的常识和性能,例如用于环球常识注入的常识插件、用于多模态组合的模态插件、用于长文本解决的记忆插件,以及用于推理减速的紧缩插件等。

因此,该论文钻研者以为,后训练的实质是定制模块的训练,这些模块可以充沛补充和激起大模型的常识和才干。

由涌现模块与定制模块构成的可性能的大模型相比于传统的浓密模型领有五大长处:

在定义了可性能的大模型架构之后,钻研人员提出了四种关键的模块操作,经过这些操作,可以让不同模块启动灵敏地配合,成功复杂才干。

这些模块化操作,使得咱们能够更繁难地对模型才干启动高效性能。

大模型的涌现模块剖析

进一步地,为了验证大模型模块化观念,作者对如今被宽泛经常使用的通用生成式大模型(Llama-3-8B-Instruct,Mistral-7B-Instruct-v0.3)启动了涌现模块剖析:

(1)针对稀疏激活个性,作者驳回了神经元激活值、神经元输入向量的模长两个目的,作为神经元能否激活的评估目的。并且,作者还展开了扰动试验,探求对每个词语将其中激活目的最低的神经元给遮蔽掉之后,模型性能能否会遭到影响。

结果标明,关于神经元激活值和输入向量模长两个目的而言,神经元激活目的均存在长尾散布特点,即绝大少数神经元的激活目的均较低。同时,将每个词激活目的最低的70%-80%的神经元启动遮蔽,模型性能仅会遭到十分强劲的影响。这充沛标明了,通用生成式大模型存在稀疏激活个性,每次计算环节中,少量神经元的计算对输入并不会形成太多的影响。

(2)针对性能分化个性:作者选取了7种大模型才干,包括代码、伦理、常识、言语、数学、翻译和写作才干,并且计算了神经元激活与输入指令所需才干之间的关系性。下图结果标明,每种才干都有十分大批的神经元与其高度关系,而在须要改才干的指令中,大局部与该才干有关的神经元的激活个性与随机激活的神经元相似。

进一步地,作者尝试将每种才干特定的神经元启动剪枝,观察这些神经元对其他才干的影响。

下图结果标明,对大局部才干而言,剪除与其最关系的神经元,对其他才干影响甚微,标明了这些神经元的特同性。

比如,关于Llama-3-8B-Instruct而言,剪除代码神经元之后,性能降低(PPL下跌了) 112%,而对其他才干的性能影响均不超越8%。

此外,Llama-3-8B-Instruct中的知知趣关神经元、Mistral-7B-Instruct-v0.3中翻译关系神经元对每一种才干都十分关键,这或者是常驻神经元的影响,识别特定才干神经元时算法,将常驻神经元识别进去,影响了模型通用才干。这也进一步须要钻研者针对神经元才干探求展开更多的后续钻研。

(3)性能分区个性:作者对不同才干神经元展开了散布上的剖析,结果发现,不同才干神经元之间堆叠度很低。这标明,咱们可以进一步将神经元启动聚类分隔,构成性能分区。

大模型的定制模块(插件)剖析

Configurable Foundation Model由预训练阶段的涌现模块与后训练阶段的定制化模块构成。前文曾经对大模型涌现模块的关系性质启动了剖析。雷同,作者团队曾经在插件构建层面,取得了很多有益的尝试:

论文链接:https://arxiv.org/pdf/2305.17660

论文链接:

论文链接:

总结和更多钻研

在本篇文章中,作者提出了一种高效模块化架构 —— 由涌现模块与定制模块组成的可性能大模型。该架构强调将大模型依据性能拆解为若干模块,经过模块的检索、组合、降级、增长成功复杂才干的组合。该架构具有高效性、可复用性、可溯源性、可裁减性,并且更适宜散布式计算,能够更好地符合未来大模型在端侧部署、在宽泛的场景中经常使用、在新环境中退化的未来趋向。

清华大学自然言语解决试验室曾经在大模型稀疏模块化架构方面展开了少量的钻研上班,附上关系论文列表,供大家参考:

Moefication: Transformer feed-forward layers are mixtures of experts ()

ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models ()

ReLU^2 Wins: Discovering Efficient Activation Functions for Sparse LLMs ()

Emergent Modularity in Pre-trained Transformers ()

Exploring the Benefit of Activation Sparsity in Pre-training ()

Finding Skill Neurons in Pre-trained Transformer-based Language Model()

Plug-and-play document modules for pre-trained models ()

Plug-and-play knowledge injection for pre-trained language models ()

Infllm: Training-free long-context extrapolation for llms with an efficient context memory ()

Variator: Accelerating Pre-trained Models with Plug-and-Play Compression Modules ()

Delta tuning: A comprehensive study of parameter efficient methods for pre-trained language models ()

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/6400.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号