当前位置：首页 > 维修中心 > 电脑网络维修

清华团队改造MoE架构！像搭积木一样构建大模型提出新型类脑稀疏模块化架构

电脑网络维修
2024-11-15

探求更高效的模型架构， MoE是最具代表性的方向之一。

MoE架构的关键长处是应用稀疏激活的性质，将大模型拆解成若干性能模块，每次计算仅激活其中一小局部，而坚持其他模块不被经常使用，从而大大降低了模型的计算与学习老本，能够在等同计算量的状况下发生性能长处。

但是，此前像MoE等应用稀疏激活性质的钻研上班，都以为大模型须要在预训练阶段就额外引入模块化结构解放。

如今，来自清华的一项最新钻研冲破了以上思想定式，并将MoE架构启动了改造。

详细而言，钻研人员受启示于人脑高效的稀疏模块化架构，在论文《Configurable Foundation Models: Building LLMs from a Modular Perspective》中提出了一种类脑高效稀疏模块化架构：Configurable Foundation Model。

该架构将大模型的模块拆分为预训练阶段发生的涌现模块（Emergent Brick）与后训练阶段发生的定制模块（Customized Brick），而后经过模块的检索、组合、降级与增长可以高效地成功复杂性能性能与组合，因此，将这一类模块化模型架构命名为“Configurable Foundation Model”——可性能的基础模型。从此，训练大模型无需在预训练阶段就像MoE架构一样引入模块化结构解放，而是可以在预训练阶段发生涌现模块之后，像搭积木一样来构建大模型！

如下图所示，大模型看做是一个大的积木，将其依照性能拆分红一个一个小模块之后，给定一个指令时，咱们仅需决定局部关系的模块组成子模型即可成功义务。

该钻研提醒了「模块化」是大模型自身自带的性质，一切 Transformer-based 大模型的预训练和后训练等上班都可以经过模块化的视角启动解构，其中MoE、Delta tuning只是Configurable Foundation Model蕴含的一种路途。

Configurable Foundation Model架构具有高效性、可复用性、可溯源性、可裁减性，并且更适宜散布式计算，能够更好地符合未来大模型在端侧部署、在宽泛的场景中经常使用、在新环境中退化的未来趋向。

论文链接：

论文单位：清华大学、加州大学圣地亚哥分校、卡耐基梅隆大学、面壁智能、中国人民大学、普林斯顿大学、新加坡国立大学、斯坦福大学和加州大学洛杉矶分校。

可性能的大模型 —— 涌现模块与定制模块

钻研人员形容了涌现模块和定制模块两种模块类型及其构建模式。

1. 涌现模块

随机初始化的模型参数，在预训练环节中，模型神经元将会自发地发生性能分化的现象，进而组成了大模型的性能分区。在推理阶段，只要与输入内容关系的性能分区会被激活，并作用于模型的输入结果。

在该机制造用下，许多钻研努力于开掘大模型神经元的稀疏激活性质与性能定位：

稀疏激活：

最早应用稀疏激活性质的模型架构为稀疏混合专家模型，它经过预约义的模块化结构，强迫每个词仅能经常使用局部专家启动计算。

进一步地，在浓密训练的模型中，神经元雷同存在稀疏激活现象：在解决每个词语环节中，少量神经元激活值的相对值很低，不可对输入发生有效奉献。稀疏激活的性质使得咱们可以训练高效的参数决定器，在推理时灵活决定参数启动计算，以降低计算开支。

性能定位：

与人脑相似，大模型神经元在预训练后发生了性能分化，各自仅担任局部性能。目前曾经被宽泛发现的性能神经元包括：

这些性能神经元的发现进一步佐证了大模型具有与人脑一样启动高效稀疏化推理的后劲。

2. 定制模块（插件）

预训练之后，咱们往往须要对模型启动后训练，从而将模型与人类需求对齐，并增强包括畛域才干和义务才干在内的模型才干。最近的钻研标明，后训练环节中参数变动实质上是低秩的，这象征着该环节只训练少局部参数。受这些发现的启示，多样化的定制模块（插件）被提出。

其中，最广为人知的是经过少参数微调构成的义务模块，坚持模型主体参数不变，仅微调大批的义务关系参数。进一步地，许多钻研发现，小规模的外部插件，不只可以赋予大模型义务特定的才干，还可以为它们补充更多额外的常识和性能，例如用于环球常识注入的常识插件、用于多模态组合的模态插件、用于长文本解决的记忆插件，以及用于推理减速的紧缩插件等。

因此，该论文钻研者以为，后训练的实质是定制模块的训练，这些模块可以充沛补充和激起大模型的常识和才干。

由涌现模块与定制模块构成的可性能的大模型相比于传统的浓密模型领有五大长处：

在定义了可性能的大模型架构之后，钻研人员提出了四种关键的模块操作，经过这些操作，可以让不同模块启动灵敏地配合，成功复杂才干。

这些模块化操作，使得咱们能够更繁难地对模型才干启动高效性能。

大模型的涌现模块剖析

进一步地，为了验证大模型模块化观念，作者对如今被宽泛经常使用的通用生成式大模型（Llama-3-8B-Instruct，Mistral-7B-Instruct-v0.3）启动了涌现模块剖析：

（1）针对稀疏激活个性，作者驳回了神经元激活值、神经元输入向量的模长两个目的，作为神经元能否激活的评估目的。并且，作者还展开了扰动试验，探求对每个词语将其中激活目的最低的神经元给遮蔽掉之后，模型性能能否会遭到影响。

结果标明，关于神经元激活值和输入向量模长两个目的而言，神经元激活目的均存在长尾散布特点，即绝大少数神经元的激活目的均较低。同时，将每个词激活目的最低的70%-80%的神经元启动遮蔽，模型性能仅会遭到十分强劲的影响。这充沛标明了，通用生成式大模型存在稀疏激活个性，每次计算环节中，少量神经元的计算对输入并不会形成太多的影响。

（2）针对性能分化个性：作者选取了7种大模型才干，包括代码、伦理、常识、言语、数学、翻译和写作才干，并且计算了神经元激活与输入指令所需才干之间的关系性。下图结果标明，每种才干都有十分大批的神经元与其高度关系，而在须要改才干的指令中，大局部与该才干有关的神经元的激活个性与随机激活的神经元相似。

进一步地，作者尝试将每种才干特定的神经元启动剪枝，观察这些神经元对其他才干的影响。

下图结果标明，对大局部才干而言，剪除与其最关系的神经元，对其他才干影响甚微，标明了这些神经元的特同性。

比如，关于Llama-3-8B-Instruct而言，剪除代码神经元之后，性能降低（PPL下跌了） 112%，而对其他才干的性能影响均不超越8%。

此外，Llama-3-8B-Instruct中的知知趣关神经元、Mistral-7B-Instruct-v0.3中翻译关系神经元对每一种才干都十分关键，这或者是常驻神经元的影响，识别特定才干神经元时算法，将常驻神经元识别进去，影响了模型通用才干。这也进一步须要钻研者针对神经元才干探求展开更多的后续钻研。

（3）性能分区个性：作者对不同才干神经元展开了散布上的剖析，结果发现，不同才干神经元之间堆叠度很低。这标明，咱们可以进一步将神经元启动聚类分隔，构成性能分区。

大模型的定制模块（插件）剖析

Configurable Foundation Model由预训练阶段的涌现模块与后训练阶段的定制化模块构成。前文曾经对大模型涌现模块的关系性质启动了剖析。雷同，作者团队曾经在插件构建层面，取得了很多有益的尝试：

论文链接：https://arxiv.org/pdf/2305.17660

论文链接：

总结和更多钻研

在本篇文章中，作者提出了一种高效模块化架构 —— 由涌现模块与定制模块组成的可性能大模型。该架构强调将大模型依据性能拆解为若干模块，经过模块的检索、组合、降级、增长成功复杂才干的组合。该架构具有高效性、可复用性、可溯源性、可裁减性，并且更适宜散布式计算，能够更好地符合未来大模型在端侧部署、在宽泛的场景中经常使用、在新环境中退化的未来趋向。

清华大学自然言语解决试验室曾经在大模型稀疏模块化架构方面展开了少量的钻研上班，附上关系论文列表，供大家参考：

Moefication: Transformer feed-forward layers are mixtures of experts （）

ProSparse: Introducing and Enhancing Intrinsic Activation Sparsity within Large Language Models （）

ReLU^2 Wins: Discovering Efficient Activation Functions for Sparse LLMs （）

Emergent Modularity in Pre-trained Transformers （）

Exploring the Benefit of Activation Sparsity in Pre-training （）

Finding Skill Neurons in Pre-trained Transformer-based Language Model（）

Plug-and-play document modules for pre-trained models （）

Plug-and-play knowledge injection for pre-trained language models （）

Infllm: Training-free long-context extrapolation for llms with an efficient context memory （）

Variator: Accelerating Pre-trained Models with Plug-and-Play Compression Modules （）

Delta tuning: A comprehensive study of parameter efficient methods for pre-trained language models （）

关注微信

上一篇：对象存储的多中心多活架构设计

下一篇：Go 名目怎样做好分层架构和目录布局

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：https://duobeib.com/diannaowangluoweixiu/6400.html

清华团队改造MoE架构！像搭积木一样构建大模型提出新型类脑稀疏模块化架构

可性能的大模型 —— 涌现模块与定制模块

1. 涌现模块

2. 定制模块（插件）

大模型的涌现模块剖析

大模型的定制模块（插件）剖析

总结和更多钻研

猜你喜欢

热门标签

随便看看

TCP发送窗口接纳窗口以及其上班原理

I 如何发现 PostgreSQL 和中那些消耗 CPU

如何改良DevOps上班流

安保无大事安保防范从Nginx性能做起程序员安保规范

斯坦福学者提出Edu

热门资讯

阅读排行

AI的下一个拐点华为云图引擎何以煊赫一时

禁用win2008组合键登录的方法

穹彻智能

一种提高Android运后退程存活率新方法上

AIops中的人工智能

关注我们

清华团队改造MoE架构！像搭积木一样构建大模型 提出新型类脑稀疏模块化架构

可性能的大模型 —— 涌现模块与定制模块

1. 涌现模块

2. 定制模块（插件）

大模型的涌现模块剖析

大模型的定制模块（插件）剖析

总结和更多钻研

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号

清华团队改造MoE架构！像搭积木一样构建大模型提出新型类脑稀疏模块化架构