开源专家混合模型超Meta！史上参数最大腾讯加大招

电脑网络维修
2024-11-15

开源大模型畛域迎又来一位重磅玩家——腾讯。

腾讯一出手就是个超大模型，开源的Hunyuan-Large是目前市面上最大基于 Transformer架构的专家混合（MoE）模型。一共有3890 亿参数，其中激活参数为 520 亿，具有解决长达256K高低文才干。

依据腾讯地下测试数据显示， Hunyuan-Large不只超越了社交巨头Meta开源的最新、最大模型LLama3.1 - 405B，并且在激活参数数量清楚缩小的状况下，成功了高达3.2%的功能优化 。在数学、日常推理、文本生成等方面十分低劣。

开源地址：

huggingface：

云开发平台：

Hunyuan-Large驳回了高效的MoE结构，经常使用多个专家交流了Transformer中的原始前馈网络。在训练环节中，只要一小部分专家会被激活，这样的设计使得模型能够愈加高效地启动训练和推理。

一共蕴含共享专家和公用专家两种形式，不只能够捕捉一切token所需的独特常识，还能够灵活学习特定畛域的常识 。同时Hunyuan-Large还开发了一种新的回收路由战略，用于解决在原始top-k路由环节中被摈弃的token。这种战略经过将这些token从新调配给未超越容量的其余专家，以优化训练效率和稳固性。

Hunyuan-Large还对KV缓存启动了翻新，经常使用了紧缩技术。在传统的Transformer架构中，每层都会保养一个用于存储先前计算出的键值对的缓存，这关于允许长序列输入十分必要。但随着序列长度的增长，这种缓存机制会造成渺小的内存开支。

而KV缓存紧缩技术经过缩小KV缓存的存储需求来降落内存占用，同时坚持了模型关于长序列解决的才干，可以有效地缩小键值对的存储空间，而不就义准确性或速度。即使面对十分长的文本输入，模型也能高效运转，不会由于内存限度而遭到阻碍。

在专家特定的学习率缩放方面，Hunyuan-Large驳回了AdamW作为优化器，并依据批量大小调整学习率 。依据最新的钻研，关于Adam格调的优化器，最佳学习率与批量大小之间的相关有了新的了解。Hunyuan-Large依据每个专家在单次迭代中解决的token数量不同，为不同专家调配了不同的学习率，以优化训练效率。

训练数据方面， Hunyuan-Large一共经常使用了7万亿token数据启动了预训练，其中包括近1.5万亿的高品质和多样化的分解数据 。这些分解数据的生成环节触及四个关键步骤：指令生成、指令演变、照应生成和照应过滤。

在指令生成阶段，应用高品质的数据源，如网页、问答数据、代码库、书籍等，配合多样化的指令生成揭示，生成笼罩多个畛域的多样化指令。在指令演变阶段，经过增强指令的明晰度和消息量、裁减低资源畛域指令以及参与指令难度等手腕，进一步优化指令的品质。

照应生成阶段则应用多个专业化模型为这些演变后的指令生成消息丰盛、准确的答案。最后，在照应过滤阶段，经过批判模型和自分歧性审核，确保分解的指令-照应答的品质，有效去除低品质或不分歧的数据。

在Hunyuan-Large的训练环节中，学习率调度表演了至关关键的作用，一共分为三个阶段： 初始的预热阶段、随后的逐渐衰减阶段，以及最后的退火阶段。这种设计使得模型能够在初始阶段有效地探求解空间，防止过早收敛到次优的部分最小值。随着训练的启动，学习率的逐渐降落确保了模型能够向更优解收敛。

在预训练的最后5%阶段，Hunyuan-Large引入了退火阶段，将学习率降落到峰值的十分之一。这有助于模型粗疏地调整参数，成功更高的泛化才干，从而优化全体功能。在这个阶段，模型优先经常使用最高品质的数据集，这关于增强模型在退火阶段的功能至关关键。

在退火阶段之后，Hunyuan-Large还启动了长文本预训练，以增强其解决长文本的才干，逐渐参与token长度从32K增长至256K。Hunyuan-Large驳回了RoPE来构建位置嵌入，并在256K预训练阶段将RoPE的基础频率裁减到10亿。

长文本预训练的数据关键来自书籍和代码等人造长文本数据，这些数据与反常长度的预训练数据混合，构成了长文本预训练语料库。

腾讯将Hunyuan-Large与LLama3.1-405B、LLama3.1-70B、Mixtral-8x22B和DeepSeek-V2市面上超大开源模型启动了综合评测。

结果显示，Hunyuan-Large皆取得了超强的功能体现，例如，在CommonsenseQA测试中，Hunyuan-Large 的准确率到达 92.9%，而 LLama3.1 - 70B 为 84.1%，LLama3.1 - 405B 为 85.8%。

在PIQA 测试中，Hunyuan-Large 的准确率为 88.3%，优于LLama3.1 - 405B的83.7%。在WinoGrande 测试中，Hunyuan-Large的准确率到达 88.7%，超越了LLama3.1 - 70B 的 85.3%和LLama3.1 - 405B的86.7%。

原文链接:

关注微信

上一篇：快手自研Spark向量化引擎正式颁布性能优化200%

下一篇：微软颁布代码优先的Agent框架TaskWeaver 2.0

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：https://duobeib.com/diannaowangluoweixiu/5852.html

开源专家混合模型超Meta！史上参数最大腾讯加大招

猜你喜欢

热门标签

随便看看

TCP发送窗口接纳窗口以及其上班原理

I 如何发现 PostgreSQL 和中那些消耗 CPU

如何改良DevOps上班流

安保无大事安保防范从Nginx性能做起程序员安保规范

斯坦福学者提出Edu

热门资讯

阅读排行

电脑店教你excel怎么让筛选后面有数字

关键系统数据库更新报告谈起从赛迪

聊天机器人结构的指南

清点鲍尔默执政下微软的那些事儿

如何经常使用 Kubernetes正当调整GPU和CPU资源以训练和推理AI模型

关注我们

开源专家混合模型 超Meta！史上参数最大 腾讯加大招

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号

开源专家混合模型超Meta！史上参数最大腾讯加大招