开源专家混合模型 超Meta!史上参数最大 腾讯加大招

  • 电脑网络维修
  • 2024-11-15

开源大模型畛域迎又来一位重磅玩家——腾讯。

腾讯一出手就是个超大模型,开源的Hunyuan-Large是目前市面上最大基于 Transformer架构的专家混合(MoE)模型。一共有3890 亿参数,其中激活参数为 520 亿,具有解决长达256K高低文才干。

依据腾讯地下测试数据显示, Hunyuan-Large不只超越了社交巨头Meta开源的最新、最大模型LLama3.1 - 405B,并且在激活参数数量清楚缩小的状况下,成功了高达3.2%的功能优化 。在数学、日常推理、文本生成等方面十分低劣。

开源地址:

huggingface:

云开发平台:

Hunyuan-Large驳回了高效的MoE结构,经常使用多个专家交流了Transformer中的原始前馈网络。在训练环节中,只要一小部分专家会被激活,这样的设计使得模型能够愈加高效地启动训练和推理。

一共蕴含共享专家和公用专家两种形式,不只能够捕捉一切token所需的独特常识,还能够灵活学习特定畛域的常识 。同时Hunyuan-Large还开发了一种新的回收路由战略,用于解决在原始top-k路由环节中被摈弃的token。这种战略经过将这些token从新调配给未超越容量的其余专家,以优化训练效率和稳固性。

Hunyuan-Large还对KV缓存启动了翻新,经常使用了紧缩技术。在传统的Transformer架构中,每层都会保养一个用于存储先前计算出的键值对的缓存,这关于允许长序列输入十分必要。但随着序列长度的增长,这种缓存机制会造成渺小的内存开支。

而KV缓存紧缩技术经过缩小KV缓存的存储需求来降落内存占用,同时坚持了模型关于长序列解决的才干,可以有效地缩小键值对的存储空间,而不就义准确性或速度。即使面对十分长的文本输入,模型也能高效运转,不会由于内存限度而遭到阻碍。

在专家特定的学习率缩放方面,Hunyuan-Large驳回了AdamW作为优化器,并依据批量大小调整学习率 。依据最新的钻研,关于Adam格调的优化器,最佳学习率与批量大小之间的相关有了新的了解。Hunyuan-Large依据每个专家在单次迭代中解决的token数量不同,为不同专家调配了不同的学习率,以优化训练效率。

训练数据方面, Hunyuan-Large一共经常使用了7万亿token数据启动了预训练,其中包括近1.5万亿的高品质和多样化的分解数据 。这些分解数据的生成环节触及四个关键步骤:指令生成、指令演变、照应生成和照应过滤。

在指令生成阶段,应用高品质的数据源,如网页、问答数据、代码库、书籍等,配合多样化的指令生成揭示,生成笼罩多个畛域的多样化指令。在指令演变阶段,经过增强指令的明晰度和消息量、裁减低资源畛域指令以及参与指令难度等手腕,进一步优化指令的品质。

照应生成阶段则应用多个专业化模型为这些演变后的指令生成消息丰盛、准确的答案。最后,在照应过滤阶段,经过批判模型和自分歧性审核,确保分解的指令-照应答的品质,有效去除低品质或不分歧的数据。

在Hunyuan-Large的训练环节中,学习率调度表演了至关关键的作用,一共分为三个阶段: 初始的预热阶段、随后的逐渐衰减阶段,以及最后的退火阶段。这种设计使得模型能够在初始阶段有效地探求解空间,防止过早收敛到次优的部分最小值。随着训练的启动,学习率的逐渐降落确保了模型能够向更优解收敛。

在预训练的最后5%阶段,Hunyuan-Large引入了退火阶段,将学习率降落到峰值的十分之一。这有助于模型粗疏地调整参数,成功更高的泛化才干,从而优化全体功能。在这个阶段,模型优先经常使用最高品质的数据集,这关于增强模型在退火阶段的功能至关关键。

在退火阶段之后,Hunyuan-Large还启动了长文本预训练,以增强其解决长文本的才干,逐渐参与token长度从32K增长至256K。Hunyuan-Large驳回了RoPE来构建位置嵌入,并在256K预训练阶段将RoPE的基础频率裁减到10亿。

长文本预训练的数据关键来自书籍和代码等人造长文本数据,这些数据与反常长度的预训练数据混合,构成了长文本预训练语料库。

腾讯将Hunyuan-Large与LLama3.1-405B、LLama3.1-70B、Mixtral-8x22B和DeepSeek-V2市面上超大开源模型启动了综合评测。

结果显示,Hunyuan-Large皆取得了超强的功能体现,例如,在CommonsenseQA测试中,Hunyuan-Large 的准确率到达 92.9%,而 LLama3.1 - 70B 为 84.1%,LLama3.1 - 405B 为 85.8%。

在PIQA 测试中,Hunyuan-Large 的准确率为 88.3%,优于LLama3.1 - 405B的83.7%。在WinoGrande 测试中,Hunyuan-Large的准确率到达 88.7%,超越了LLama3.1 - 70B 的 85.3%和LLama3.1 - 405B的86.7%。

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5852.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号