LLM新巅峰

  • 电脑网络维修
  • 2024-11-15

本文提出了mllm-NPU,这是第一个有效应用设施上神经处置单元(NPU)卸载的LLM推理系统。mllm-NPU的关键设计指标是缩小预填充提前和能耗。它针对干流的仅解码器的变压器架构的LLM(例如LlaMA、GPT等)。关键思维是最大限制地在移动NPU上口头预填充,以减速整数计算,同时坚持在CPU/GPU上口头必要的浮点操作以坚持准确性。为了克制上述应战并提高NPU卸载效率,mllm-NPU在三个层面上重构了揭示和模型:(1)在揭示层面:mllm-NPU将可变长度的揭示宰割成多个固定大小的块,同时坚持数据依赖性;(2)在张量层面:mllm-NPU识别并提取关键的意外值以在CPU/GPU上运转;(3)在块层面:mllm-NPU依据配件亲和性和对准确性的敏感度将变压器块调度到CPU/GPU和NPU。

mllm-NPU系统设计概述

mllm-NPU是一个翻新的大型言语模型(LLM)推理系统,专为移动设施上的神经处置单元(NPU)优化。该系统的关键设计指标是缩小预填充(prefill)阶段的提前和能耗,同时坚持推理精度。mllm-NPU经过在算法和系统设计上的协同优化,有效地处置了LLM架构与现代NPU设计之间的语义差异。

mllm-NPU的上班流程包含预备阶段和口头阶段。在预备阶段,mllm-NPU经常使用增强的张量级量化算法将LLM量化为W8A8格局,并生成固定长度的分块共享图,以高效处置变长揭示。在口头阶段,mllm-NPU将接纳到的揭示宰割成固定大小的块,并依照因果相关处置这些块。这些块图会依据它们的数据格局被宰割成子图,并依据配件亲和性和精度敏理性在CPU/GPU和NPU之间启动调度。

三大翻新技术详解

1. 分块共享图

mllm-NPU经过引入分块共享图来应答灵活揭示长度的应战。这种方法基于对LLM操作符的两种分类:静态操作符和灵活操作符。静态操作符如线性层和层归一化,可以跨不同块共享;而灵活操作符如留意力机制,依赖于块长度和序列,不能共享。经过这种模式,mllm-NPU将LLM合成为多个子图,共享子图一次性构建和优化,非共享子图则针对不同块独自构建。这种方法清楚缩小了内存开支,并提高了可扩展性。

2. 影子离群值口头

为了在不就义LLM精度的前提下成功NPU友好的张量级激活量化,mllm-NPU驳回了影子离群值口头技术。该技术在运转时将具备离群值的激活通道提取到一个更紧凑的张量中,在CPU上口头,并将结果兼并回NPU上的原始操作符结果中。这种设计不只处置了离群值的疑问,还优化了内存经常使用,并缩小了CPU和NPU之间的同步开支。

3. 无序子图口头

mllm-NPU驳回无序子图口头战略来优化口头效率。经过在块和子图级别启动分区后,LLM子图可以不按块序列顺序口头。这种战略清楚扩展了调度空间,最小化了由于CPU/GPU浮点操作惹起的口头泡沫。mllm-NPU应用在线启示式算法,在保障正确性的前提下,灵活选用口头顺序,从而最大化NPU的应用率并最小化CPU/GPU的上班负载影响。

成功与评价

1. 成功

mllm-NPU的成功触及多个关键技术,包含分块共享图、阴影意外口头和乱序子图口头。这些技术独特优化了移动NPU的加载效率,清楚提高了预填充速度和能效。

2. 评价

mllm-NPU的功能经过与多个基线系统的比拟获取验证。试验结果显示,无论是在预填充速度、能耗还是端到端推理提后方面,mllm-NPU都清楚优于现有技术。

功能剖析

mllm-NPU的功能长处关键源于其翻新的设计和优化战略。经过在移动NPU上最大化整数运算的口头,同时在CPU/GPU上处置必要的浮点运算,mllm-NPU不只提高了口头速度,还降落了能耗。

总之,mllm-NPU经过一系列翻新技术,清楚提高了移动设施上大型言语模型的推感功能,为成功高效、低能耗的移动设施端LLM推理提供了有效处置打算。

准确性与内存消耗

1. 准确性坚持

mllm-NPU系统在成功高效的NPU卸载的同时,坚持了较高的准确性。与FP16相比,准确性损失不到1%,这在实践运行中是可接受的。这得益于其翻新的技术,如影子离群值口头(shadow outlier execution),它准许在CPU上以浮点精度处置离群值,从而坚持了高准确性。此外,mllm-NPU与其余基线模型相比,在坚持准确性的同时,清楚提高了口头效率。

2. 内存消耗

虽然mllm-NPU引入了一些额外的内存开支,例如为离群值口头加载的浮点权重,但这些开支相对较小,仅占总内存的0.6%至1%。此外,经过共享图(chunk-sharing graph)技术,mllm-NPU清楚缩小了内存需求,由于它准许在不同的口头块之间共享静态操作符。这种方法不只缩小了内存占用,还提高了内存经常使用的效率。

本文转载自​​,作者:

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5544.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号