实时深度学习的推理减速和继续训练

电脑网络维修
2024-11-14

一、引言

深度学习改革了许多计算机视觉和自然言语处置(NLP)畛域内的义务，它为越来越多的消费者和工业产品提供更弱小的智能，并潜在地影响了人们在日常阅历和工业通常上的规范流程。从通常过去说，深度学习和其余基于统计机器学习方法的智能化系统十分相似，它们都可以驳回两个环节形容。首先，深度神经网络(DNN)模型明白地指向为疑问畛域和可用数据而训练，通常训练会在GPU 或高性能 CPU集群上破费大概十多小时到几周的时期。而后它才干部署到产品环境中，并继续输入数据流且发生实时推理，而发生的输入会间接作为端结果或继续馈送到下游系统中。无论哪种形式，具有严厉提前要求的运行都须要启动轻量且极速的深度学习推理(如智能驾驶汽车或搜查引擎)，通常每个样本数据须要在几十毫秒内照应。因此，相关于学术上关注于更快地训练，产业上往往更关注于更快地推理，推进更快的减速成为了很多配件和软件处置打算的焦点和外围。

深度学习系统另外一个关键的方面就是须要处置输入和输入数据随时期的散布变动。像任何统计机器学习模型一样，深度神经网络的有效性极端依赖于假定输入和输入数据的散布并不会随时期地变动而发生显著的扭转，从而最后学习到的复杂模型和形式可以在继续经常使用。但是，这类假定无理想中是很少成立的，特意是在消息安保等畛域，快节拍潜在数据生成机制的变动属于常态(在消息安保案例中，攻打和进攻介入双方都在不时调整战略而尽力胜过对手，因此它们都在开掘对手的潜在破绽)。因此随着经常使用深度学习能处置更多以前不可处置的疑问，深度神经网络的继续性训练疑问和如何在不侵害产质量量前提下训练，就遭到了机器学习服务提供商(Machine-Learning-as-a-Service/MLaaS)和少量运行程序架构师的关注。

在本报告中，咱们将引见深度神经网络推理减速和产品场景下的继续性训练近期的一些技术、趋向和研讨。咱们报告的目的并不是研讨几个详细的技术，而是对处置这两个疑问的配件和软件处置打算启动考查和概览。咱们宿愿提供应读者继续研讨的登程点，并宿愿能激起更多不同专业的人才介入到咱们的讨论和常识的交换中。

二、推理减速

1. 推理减速-配件

DNN 训练和推理都是计算密集型环节，只不过形式齐全不一样。训练须要很高的吞吐量，因此也通常在 GPU 上成功，由于 DNN模型的训练通常会触及少量的并行计算和便捷的控制流与功耗效率。而将训练分为数百个输入数据为一批也很经常出现(如计算机视觉义务中的图像、NLP义务中的语句序列和语音识别义务中的语谱图等)，因此将每个批量作为一个单位口头前向流传和反向流传，这样可以经过多个 GPU存储器摊派加载神经网络权重的老本。

关于推理来说，最关键的性能目的就是提前。为了最小化网络的端到端照应时期，推理相比于训练通常须要更小的批量大小，由于依赖于推理的智能化服务须要实时照应。例如整个Google Autosuggest 流程的提前须要控制在 200 毫秒之内，其中就包括了前端、负载平衡(load balancing)、征询了解和由 DNN驱动的智能成功倡导，同时还须要完整的搜查堆栈遍从来显示用户实践搜查的结果。智能驾驶汽车之类的义务会要求更严厉的时期提前限度，由于当用户安保遭到要挟时，DNN作为在车内嵌入芯片运转的一个组件，须要在极短的时期内做出正确的照应。

模型的训练关键用的是 GPU，但推理配件市场有若干选用。

为了协助开发者充沛应用它的配件，英伟达 cuDNN 库为 GPU 提供了一系列的推理优化。在小批量下，cuDNN改善了卷积算法不能并行化足够的线程以充沛应用 GPU 的疑问。传统的算法如估量算的隐式GEMM(普通矩阵-矩阵乘法)最优化为大规模输入矩阵，而它的自动并行化战略并不能启用足够的线程块，因此批量大小在输入矩阵的一个维度中是一个乘法因子。最新版本的cuDNN 经过决裂出额外的维度而改良了该算法，这也就缩小了每一个线程块的计算总量，并准许启用更多的线程块来优化 GPU 经常使用率和性能。

另外一个关键的改良就是降落准确度的浮点运算操作。近年来，研讨者发现经常使用更低精度的浮点运算表征(FP16)贮存层级处罚值，而更高的表征(FP32)启动计算并不会损失分类精度。即使时期的性能优化会有带宽限度，但也能在运转DNN 时缩小全体的内存占用要求。cuDNN 为卷积算法引进了 FP16，相关于等价的 FP32 成功了两倍的性能优化。

3. Intel Processor Graphics

随着在云端或经过云端训练 AI系统继续性地增长，工业界正目击着推理阶段从上流专业主机转移到边缘计算当中。这就趋向于在终端设施中本地口头机器学习和深度学习而不是单单依赖于MLaaS，这种趋向由缩小网络带宽瓶颈上的提前而驱动，以及须要维持超越 99.999%的服务肥壮在线时期，和可以向外裁减终端设施而不是参与主机来平摊老本，同时这也将处置首当其冲的隐衷和合规疑问。由这一波智能运行、智能驾驶汽车、智能化制作业和移动平台上的虚构助手所驱动，IntelProcessor Graphics 曾经装备到了其配件产品阵列中来处置各类 AI 上班负载，包括 Intel HD Graphics、Intel IrisGraphics 和 Intel Iris Pro Graphics 等。

他们旨在设计能在推理减速和编程灵敏性上到达平衡的架构，并且该平衡作为 Intel SOC 的组件从宽泛经常使用的 PC到主机嵌入设施中。经过灵敏的指令集架构，咱们可以经常使用丰盛的数据表征，如 16FP、32FP、16Int、32Int 和极速 SIMD 乘积-累和运算(fastSIMD multiply-accumulateoperations)。这些设施提供高效的内存块载入以优化卷积和普通矩阵-矩阵乘法，这些对边缘设施上极速和高能效的推理都是极端关键的。

为了更好地利用配件资源启动推理，英特尔的深度学习部署工具包在已训练的 DNN模型上口头静态、编译时期剖析以优化在各端点的口头。模型优化器尝试融合水平的和垂直的层级并对冗余网络启动剪枝和层级权重量化，而后将精简量化的模型输入到推理引擎中，引擎会进一步强调以降落占用来为目的配件优化推理。

正由于端点目的设施和工具包成功了去耦(decoupling)，它能优化运转在不同配件单元的推理，包括 CPU、GPU 和 FPGA。关于 CPU推理减速，它经常使用英特尔的 MKL-DNN 插件。而关于 GPU，其应用了 clDNN，即一个为计算机视觉计算构建的 OpenCL 核优化库。关于 FPGA来说，它是与英特尔深度学习推理减速器结合，并由 Intel Arria 10 FPGA 支持的 PCIe 插件卡，其可以优化盛行的 CNN 拓扑结构，包括AlexNet、GoogleNet、CaffeNet、LeNet、VGG-16 和 SqueezeNet。

通常来说，由于其灵敏的配件性能，在雷同的功率耗能下 FPGA 通常能够提供比 GPU更好的性能，特意是关于如卷积和池化(pooling)等滑动窗口(sliding-window)的计算。这使得它们关于企业级用户特意有吸引力，由于企业级用户最终更关心降落大规模运行的老本以及其为特定运行定制推理架构(inferencearchitecture)的才干。传统上，FPGA 的峰值浮点运算性能不如 GPU，因此 FPGA 并重于开展无关 DNN 推理的技术。最新的基于英特尔 14纳米技术开发的 Intel Stratix 10 FPGA 具有超越 5000 个浮点单元，并集成了高带宽存储的超越 28MB 的片内 RAM，可与Nvidia Titan X Pascal GPU 相媲美(报告显示，关于精度 FP32，Stratix 10 峰值速度为 9.2 TFLOP，而 PascalTitan X 为 11 TFLOP)。

DNN 的两个研讨趋向正推进着驳回 FPGA 取代 GPU：即更低准确度的数据类型和稠密性。研讨者曾经证实了 2-bit 三元的和 1-bit 二元的DNN 精度有所优化，并提出了经过剪枝、ReLU 和三元树等技术将神经元和权重稠密性推高到 90%。这些技术加在一同优化 DNN 算法的效率高出密集 FP32架构一个数量级，前提是有适合的配件成性能够高效地跳过零的计算。单片和大型并行化 GPU架构在这些不规定的并行形式和自定义数据类型下并不合乎规范，而为极端定制才干而设计的 FPGA 显得愈加夺目。英特尔最近一个团队标明 Stratix FPGA相比于 itan X GPU 在更低精度 6Int GEMM 有 3 倍的 TOP/s 和 4 倍的 GOP/s 每瓦个性能优化，1-bit GEMM 到达了2 到 10 倍优化，85%-sparse GEMM 到达了 4 倍的优化。

除了为 DNN 推理启动宽泛目的的配件重塑和重编程(如 CPU、GPU 和 FPGA)之外，研讨者和实业家还专一于 ASIC(ApplicationSpecific Integrated Circuits)，他们置信公用芯片能为特定的计算上班负载类型带来最好的性能，谷歌去年颁布的 TPU就是这样的一个案例。该芯片驱动了谷歌少量的实时服务，包括搜查、街景视图、翻译、照片和智能驾驶汽车等。TPU 通常要比 GPU 或 CPU 推理快 15 倍到30 倍，并且每瓦特的老本还很低。TPU 低劣的推理性动力自四个关键的设计优化：Int8 量化、DNN-inference-specific CISC指令集、大型并行化矩阵处置器和最低确定性设计。

量化(Quantization)极大地降落了最关键推理计算(矩阵乘法)的配件占用和能耗。移动端和嵌入式系统的部署雷同也得益于内存占用的缩小，据谷歌报告其在普通模型(如Inception)要缩小 4 倍多。一块 TPU 蕴含 60000 Int8 乘法器，简直是在普通 GPU FP32 乘法器的 25 倍。

TPU 的 CISC 指令集关注于间接表征和优化关键的 DNN 推理数学运算，即矩阵乘法和激活函数。指令集包括优化的 CISC指令以从内存读取数据块和权值块，同时还优化了矩阵乘法或数据和权重的卷积以累和两边结果，运行硬衔接的激活函数和将结果写入内存。可性能的、可编程的三个配件单元：矩阵乘法器单元、规范缓存和激活单元驱动了这些不凡设计的指令高效口头。矩阵乘法器单元是一个大规模并行矩阵处置器，它能在单个时钟周期内启动成千盈百次矩阵运算(乘法和加法)。经过为许多不同的运算重用输入(数据块和权重块)而不贮存它们到累加寄存器中，这样就只要要24MB 地 SRAM 规范缓存。在大规模矩阵乘法中，一切的两边结果不须要 DRAM 访问就能在 64K ALU中通行，因此也就大大降落了能耗和极大地优化了吞吐量。

这些 ASIC 优化能令 TPU 在保障严厉的提前保障时还有近乎芯片峰值的吞吐量。谷歌报告说在普通 MLP 架构每个预测 7ms 的提前状况下，TPU的吞吐量要比 CPU 和 GPU 高 15 倍到 30 倍，而关于普通的 CNN 架构，TPU 相关于 CPU 成功峰值达 70 倍的性能减速。

三、推理减速——算法

算法上，降落推理提前和 DRAM 占用空间的一种有后劲的方法是模型紧缩。紧缩的模型能够便捷的适配到片上 SRAM 缓存上，而不是 DRAM存储上，这样就能在移动平台或无人驾驶汽车上装备复杂的 DNN 运行。在这些运行场景中，存储大小、推理速度和网络带宽都有极大的限度。

妇孺皆知，在大局部前沿的 DNN架构中，全衔接层会被过参数化。许多研讨专一在全衔接层的紧缩，要么是经常使用哈希函数随机地桶分化(bucketizing)衔接权重，要么是经过矢量量化紧缩。Network-in-Network提出用全局平均池化取代全衔接层，而后在顶部加上一个额外的线性层启动更好的迁徙学习才干。

在 CPU、台式机 GPU 和移动 GPU 基准上，Deep Compression 发生了 30 倍到 50 倍更紧凑的 AlexNet 和VGG-16 模型，分层(layerwise) 速度放慢了 3 到 4 倍，能效优化了 3 到 7 倍，而且在 ImageNet准确率上也没有损失。这种方法是经过一个三阶段的紧缩组分解功的：神经网络剪枝、训练量化和 Huffman 编码。

剪枝去掉了权重比低于某个阈值的网络衔接，而后 DNN 在调整残余的稠密衔接的权重时就会受解放。稠密架构的位置索引，在卷积层中是 8比特编码、在全衔接层中是 5 比特编码，都用 CSR 或 CSC 的格局存储。剪枝平均对 AlexNet 和 VGG-16 降落 10 倍的参数量。

为了进一步缩小编码每个权重的比特量，Deep Compression 应用一种装箱技术(binning technique)共享权重。对一个带有 M输入神经元和 M 输入神经元的层而言，M x M 权重被量化到 M个箱(bins)中，每个箱中的一切权重共享雷同的值，因此每个权重只要一个索引到须要存储的共享权重表格中。在反向流传环节中，梯度已相似的形式分组，装箱到 M个桶中，而后一致降级共享的权重矩心。经过权重共享启动量化有效地降落了须要存储的权重，精调共享的权重降落了须要降级的运算的数量。对一个剪枝过的 AlexNet而言，卷积层被量化到 8 比特的、全衔接层到 5 比特，大小被进一步紧缩了 3 倍。

在剪枝和量化之后，Huffman 编码可以应用权重散布(示意为稠密矩阵指数)极为偏倚的理想，通常将一小局部峰值彼此挤在一同。Huffman 编码平均对AlexNet 和 VGG -16 紧缩了 20%-30%。

尤其是在移动平台实时运转有极大提前、能量限度的运行时，Deep Compression基准测试基本没有分批(批大小=1)。没有权重共享的全衔接层通常控制着模型的大小，奉献了超越 90% 的存储需求。它们是从 Deep Compression受益最多的。Deep Compression 对全衔接层权重的大小有超越 95% 的修剪，使得完整训练的 DNN 可被装载到无人驾驶汽车内嵌处置器的 SRAM中，因此可以低能耗地提供片上存储推理。一种关系的配件架构 Efficient Inference Engine也提出了在深度紧缩模型上成功推理的方法。把紧缩过的 DNN 装载进 SRAM 为 EIE 节俭了 120 倍的能量，还有稠密性、权重供学习和跳过零函数，峰值为102 GOPS/s 时要比 GPU 有 15 倍更快的速度。

作者 Yanchen 毕业于普林斯顿大学机器学习方向，现到任于微软Redmond总部，从事大规模散布式机器学习和企业级AI研发上班。

【本文是专栏机构“机器之心”的原创文章，微信群众号“机器之心( id: almosthuman2014)”】

戳这里，看该作者更多好文

关注微信

上一篇：资源限度如何调整 Kubernetes

下一篇：比拟CPU和GPU中的矩阵计算

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：https://duobeib.com/diannaowangluoweixiu/5174.html

实时深度学习的推理减速和继续训练

猜你喜欢

热门标签

随便看看

TCP发送窗口接纳窗口以及其上班原理

I 如何发现 PostgreSQL 和中那些消耗 CPU

如何改良DevOps上班流

安保无大事安保防范从Nginx性能做起程序员安保规范

斯坦福学者提出Edu

热门资讯

阅读排行

猎豹浏览器默认浏览器怎么设置

开发者该选哪个呢 PyCharm与Sublime比拟

骑马与砍杀2有哪些控制台代码骑马与砍杀2控制台代码大全

谷歌浏览器手机版怎么安装插件

大地系统实用十八招解决XP局域网访问故障

关注我们

实时深度学习的推理减速和继续训练

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号