马普所提出TokenFormer 甚至网络!北大&amp Transformer素来没有这么灵敏过! Token化一切 谷歌&amp

  • 电脑网络维修
  • 2024-11-14

本论文第一作者是汪陆地,北京大学20级博士生,目前关键关注是通用模型的架构设计和学习算法。指点传授关键包含王立威,北京大学自动学院传授;Bernt Schiele,德国马普计算所传授;Federico Tombari 谷歌人工自动迷信家等。

新一代通用灵敏的网络结构 TokenFormer: Rethinking Transformer Scaling with Tokenized Model Parameters 来啦!

TokenFormer不只像原始 Transformer 一样 Token 化了 input> 这种形式打破了原有人们区别看待>

这项名为 TokenFormer 的新上班,由谷歌,马普计算所和北大的钻研者提出,在 Twitter,HackerNews, Reddit 上获取宽泛的探讨和关注 (Twitter 上有 150K + 的阅读量)。

目前代码、模型和名目主页均已放出:

得益于其处置各种数据的灵敏性,Transformer 网络结构在各个 AI 畛域都取得了渺小的成功。

Transformer 模型通常将处置单个 Token 所需的计算分为两个局部:与其余 Token 的交互(Token-Token Interaction)和触及模型参数的计算(Token-Parameter Interaction)。

Attention 促成了 Token-Token 之间的交互,使现代通用基础模型能够将多模态数据编码成一致的 Token 序列,并有效捕捉它们之间的复杂依赖相关。

相反,Token-Parameter 计算关键依赖于固定的 linear projection,大大限度 model size 的 scaling。Scaling model 是通常扭转模型结构,往往须要从头训练整个模型,带来了过多的资源消耗,使其越来越不实际践。

在本文中,钻研团队经常使用 token 这一律念建模一切的计算,行将 model parameters 也视为一种 token, 网络的计算一致为各种不同的 token ( e.g.,> 为成功这一指标,钻研团队引入了 TokenFormer。一致 Token-Token 和 Token-Parameters Interaction 的计算。其 Token-Parameter attention 具备灵敏性,并能够处置可变数量的参数,从而实质上最大化了 Transformer 的灵敏性,增强了模型的可裁减性。

TokenFormer 提供一种新的看待模型的视角,即网络的计算就是一些 Tokens 相互恣意交互。基于这些 Tokens (e.g.,> 该团队宿愿 TokenFormer 作为一种通用的网络结构,不只在 incremental model scaling 上有奉献,还在 Sparse Inference, Parameter-Efficient Tuning, Vision and Language Models, Device-Cloud Collaboration 和 Model Interpretability 等畛域有更多的奉献。

Tokenformer 的外围翻新是 Token-Parameter Attention(Pattention) Layer,它联合了一组 Trainable Tokens 作为 model parameters,并经过 cross-attention 来治理 Input Token 与这些 Parameter Tokens 之间的交互。

经过这种形式,Pattention 层引入了一个额外的维度 —Parameter Token 的数量,这一维度独立于输入和输入维度。此解耦形式使得输入数据可以与 variable number of parameters 启动交互,提供了增量模型裁减所需的灵敏性。

Pattention Layer: 详细来说,就是让 input alt="图片">

其中 Θ 是改良的 softmax,为了防止梯度 exponential 带来的梯度疑问,

这里 f () 是恣意非线性函数,自动经常使用 gelu。

钻研团队经常使用 Pattention Layer 交流掉规范 Transformer 中的一切的 linear projection,最大化 Transformer 的灵敏性。

有了 TokenFormer 这一灵敏的性质,可以加长出很多运行。这里以增量式 model scaling 为例。

假定曾经训练好了一个 TokenFormer,其 key parameters 和 value parameters 计为

如上图所示,参与新的从新初始化的 key-value parameter pairs,计为

而后经常使用 pattention layer,让 input>

这里直观的了解就是每个 Key-Value 代表一种学好的 pattern,其组成一个渺小的常识库。文中的 incremental scaling 就是在原有的常识库上进一步拓展训练。

增量式 model scaling:如下右图所示,模型在曾经训好的 124M 的模型的基础上,驳回增量式训练,只用十分之一的数据就可以到达从头训练战略相近的功能,让模型可以始终迭代, 真正地活起来了

Language Modeling:如下表所示,钻研团队比拟了 Transformer-based 的模型和TokenFormer在言语建模上的才干。

在相反规模、相反模型尺寸下,TokenFormer在大大参与灵敏性的前提下到达了比 Transformer 更好的 zero-shot 功能。这里钻研团队 follow 了 pythia 规范的训练代码以及数据集:Pile (300B)。上述结果展现了TokenFormer在言语模型建模上的才干。

Visual Modeling: 为了进一步验证TokenFormer的表白才干,钻研团队还和规范的 vision transformer 启动了对比。

在 ImageNet-1K 的监视训练的 setting 上,经常使用相反的训练战略,TokenFormer 的功能超越了vision-transformer,验证了其在 visual modeling 上的才干。

钻研团队以为Tokenformer 是专家混合(MoE)框架的极致实例化,其中每一组键 - 值参数对都充任一个独立的专家。这种翻新的类 MoE 架构有或许清楚缩小与 Token-Parameter 交相互关的计算老本。

新的参数高效微调范式

Tokenformer 的裁减方法经过集成额外的 key-value parameter pairs,展现了一种参数高效的微调战略。当面对新义务或数据集时,该模型可以经过参与新的 Token Parameters 来裁减其预训练参数,从而极速顺应特定义务需求。

应用 Tokenformer 的参数高效微调才干,可以成功视觉和言语模态的无缝集成。详细方法是将预训练的 Visual Tokenformer 和 Language Tokenformer 的 key-value parameter Tokens 一致为一个参数集,而后引入新的 Trainable Tokens 来口头视觉 - 言语对齐和指令微调。

Tokenformer 可以在设备 - 云单干中充任云端常识库,为设备端的大言语模型(LLM)提供支持,其中每组 key-value parameter tokens 代表一个可学习形式,经过设备启动实时处置,并应用云端口头密集义务。

因为 Tokenformer 齐全基于留意力机制,它人造受益于在 Token-Parameter 交互中与留意力相关的可解释性个性。这一特点增强了模型的可解释性,为 AI 社区开发更透明、易了解的模型奉献力气。

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/4154.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号