2 DeepMind推出Gemma 咱们一同聊聊Google 技术报告

  • 电脑网络维修
  • 2024-11-15

引言:大规模言语模型的开展与应战

近年来,大规模言语模型(LLMs)在言语了解、生成和推理方面展现出了弱小的才干。随着模型规模的始终扩展,新的才干也逐渐浮现。最新的大型模型不只在推理基准测试上到达了史无前例的性能,还展现了多模态和多言语的才干,甚至能处置超越1M个令牌的高低文长度。

虽然小规模模型的性能也在迅速优化,这些优化重要来自于参与训练长度。但是,这种方法与数据集大小的增长呈对数相关,最新的小型模型须要高达15T令牌才干将艺术形态提高不到1-2%。

这些继续的改良标明,小型模型依然存在未充沛训练的疑问。在本上班中,咱们探求了提高小型模型性能的代替方法,而不只仅是参与训练长度。一种处置打算是改良网络在每个训练步骤中接纳的消息品质,经过交流下一个令牌预测义务来成功,驳回更丰盛的指标。咱们驳回了常识蒸馏方法,这种方法经常被用来缩小小型模型的训练期间,经过提供更丰盛的梯度。

此外,咱们还应用了几种已知的Transformer修正技术,例如交替经常使用全局和部分留意力层,以及分组查问留意力机制。经过这些技术的运行,咱们的模型在与规模相当的开明模型相比,清楚优化了性能,并且在某些状况下,甚至能与规模是其两倍的模型竞争。

总的来说,这些技术的运行不只优化了小型模型的性能,也为大规模言语模型的开展提供了新的或者性。但是,这些模型的测试不能笼罩一切运行场景,因此在部署或经常使用之前,一切用户都应启动严厉的安保测试。

论文题目、机构、论文链接和名目地址

1. 论文题目:Gemma 2: Improving Open Language Models at a Practical Size

2. 机构:Google DeepMind

3. 论文链接:​ ​​ ​

模型架构与技术翻新

1. Gemma 2模型的基本架构

Gemma 2模型承袭了Gemma系列模型的基本架构,驳回了解码器仅Transformer架构(Vaswani et al., 2017)。这种架构特意强调了经常使用旋转位置嵌入(RoPE)(Su et al., 2021)和近似的GeGLU非线性激活函数(Shazeer, 2020)。在Gemma 2中,与Gemma 1相比,驳回了更深的网络档次结构,并在每个Transformer子层中经常使用了RMSNorm(Zhang and Sennrich, 2019)启动输入和输入的规范化,以稳固训练环节。

2. 常识蒸馏与训练数据的经常使用

在Gemma 2的开发中,驳回了常识蒸馏技术(Hinton et al., 2),这是一种经过大模型(老师模型)来训练小模型(在校生模型)的方法。详细来说,经过模拟老师模型对每个令牌的概率散布,来训练在校生模型,而不是便捷的下一个令牌预测。这种方法可以给小模型提供更丰盛的梯度消息,从而在不参与训练令牌数量的状况下,清楚提高模型性能。例如,Gemma 2的27B模型在13万亿令牌上启动训练,而9B和2B模型区分在8万亿和2万亿令牌上启动训练。

3. 改良的Transformer技术:部分-全局留意力与群组查问留意力

Gemma 2模型在其Transformer层中引入了部分滑动窗口留意力和全局留意力的交替经常使用(Beltagy et al., 2020a; Luong et al., 2),这种设计旨在提高模型处置长序列数据的才干。此外,Gemma 2还驳回了群组查问留意力(Grouped-Query Attention, GQA)机制(Ainslie et al., 2023),该机制经过将留意力头分组来提高推理时的速度,同时坚持下游义务性能。这些技术的运行使得Gemma 2在多项智能化基准测试和人类评价中体现杰出,相关于等同规模的开明模型清楚优化了性能。

训练环节与数据处置

1. 经常使用的数据类型与规模

2. 数据过滤与安保性思考

为了确保数据的安保性和实用性,咱们驳回了与Gemma 1相反的数据过滤技术。详细来说,咱们过滤了预训练数据集以缩小不须要或不安保的表白,过滤掉某些团体消息或其余敏感数据,从咱们的预训练数据混合中去除评价集的污染,并经过最小化敏感输入的流传来缩小背诵的风险。

3. 计算基础设备与优化技术

咱们的模型是在TPUv4、TPUv5e和TPUv5p上训练的。详细来说,2B模型在TPUv5e的2x16x16性能上训练,总共经常使用了512个芯片;9B模型在TPUv4的8x16x32性能上训练,经常使用了4096个芯片;而27B模型则在TPUv5p的8x24x32性能上训练,经常使用了6144个芯片。咱们还经常使用了相似于ZeRO-3的技术进一步分片优化器形态。关于超越单个pod的规模,咱们在数据核心网络上口头数据正本缩小,经常使用了Pathways方法和单控制器编程范式。此外,咱们还经常使用了GSPMD分区器启动训练步骤计算,以及MegaScale XLA编译器。

模型性能与评价

1. 预训练与指令调优模型的性能

预训练模型和指令调优模型(IT模型)在多个智能化基准测试和人类评价中展现了清楚的性能。例如,Gemma 2模型在Chatbot Arena评价中体现优秀,其27B模型的Elo评分高于多个竞争模型。此外,这些模型在处置多轮对话和遵照指令的才干上也有所优化,显示出与之前版本相比的清楚改良。

2. 人类评价与智能化基准测试

Gemma 2模型在多种畛域启动了宽泛的评价,包含智能化基准测试和人类偏好评价。在智能化基准测试中,Gemma 2的27B模型与其余大小相近的模型相比体现杰出,甚至与训练期间更长、参数量更大的模型竞争。在人类评价方面,Gemma 2模型在Chatbot Arena中的体现尤为突出,其中27B模型的Elo评分超越了多个竞争模型。

3. 常识蒸馏对小模型性能的影响

常识蒸馏是一种有效的技术,可以清楚优化小模型的性能。经过经常使用大模型作为老师模型,小模型可以在训练环节中学习到更丰盛的消息,从而提高其性能。例如,Gemma 2的2B和9B模型经过常识蒸馏训练,与以往版本相比,在多个基准测试中显示出了10%的性能优化。这证实了即使在相反的训练代币数量下,常识蒸馏也能清楚提高模型的品质和成果。

安保性、隐衷与责任

1. 模型的隐衷包全与数据安保

在大型言语模型的开发和部署环节中,隐衷包全和数据安保是无法或缺的思考起因。Gemma 2模型在训练阶段驳回了多种数据过滤技术,以缩小不宿愿或不安保的表白的风险。特意是,它们过滤掉了某些团体消息或其余敏感数据,以防止这些数据在模型训练环节中被不当经常使用。此外,为了缩小模型输入中的敏感消息,Gemma 2还实施了严厉的输入监控机制,确保不会暴露用户的公家消息。

2. 安保政策与训练时的缓解措施

Gemma 2的开发团队采取了多项措施来确保模型的安保性,包含在模型的训练和微调阶段驳回安保战略缓和解措施。这些措施旨在防止模型生成有害内容,例如儿童性迫害和盘剥内容、揭发或者造成损伤的团体身份消息、恼恨舆论和骚扰以及风险或恶意内容。经过这些综合性的安保战略,Gemma 2能够在多种经常使用场景中提供更为安保的运行保证。

3. 对模型潜在风险的评价与治理

关于Gemma 2模型的潜在风险,开发团队启动了片面的评价和治理。这包含经常使用外部基准评价模型的安保性能,以及运转保证评价来了解模型或者形成的损伤。例如,Gemma 2在多个安保基准上的体现优于先前的模型,特意是在儿童安保内容上的违规率清楚降落。此外,团队还评价了模型在动物、喷射性和核风险方面的常识水平,确保模型不会被用于不当用途。

经过这些综合性的措施,Gemma 2不只在性能性能上有所优化,同时也在安保性、隐衷包全和责任性方面设立了新的规范,确保技术的踊跃影响最大化,同时降落潜在的负面影响。

本文转载自​​,作者:

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5894.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号