清华大学提出1

  • 电脑网络维修
  • 2024-11-15

在深度神经网络的训练环节中,全量化训练(Fully Quantized Training, FQT)经过将激活值、权重和梯度量化到较低的精度,清楚减速了训练环节。随着对训练数值精度的始终紧缩,一个人造而然的疑问显现进去:全量化训练的极限是什么?即,能够成功的最低位宽是多少?现实状况下,假设能将位宽紧缩到1位,训练将可以经过二进制操作成功,这不只能极大简化配件设计,还或者在坚持训练品质的前提下,成功极致的计算效率。

本文初次尝试将全量化训练的精度推向1位极限。咱们提供了基于Adam和SGD的全量化训练的切实剖析,并提醒了梯度方差如何影响全量化训练的收敛性。在此基础上,咱们引入了激活梯度修剪(Activation Gradient Pruning, AGP)战略,经过修剪不太有消息量的梯度,并提高残余梯度的数值精度来缩小梯度方差。此外,咱们还提出了样本通道联结量化(Sample Channel joint Quantization, SCQ)战略,该战略在权重梯度和激活梯度的计算中驳回不同的量化战略,以确保方法对低位宽配件友好。最终,咱们展现了如何部署咱们的算法,并在多个数据集上对VGGNet-16和ResNet-18启动微调,平均准确率提高了约6%,训练速度优化了最高达5.13倍。

论文基本消息

Beijing Jiaotong UniversityTsinghua University 地址: ​ ​​ ​

全量化训练(FQT)的概述

全量化训练(Fully Quantized Training,简称FQT)是一种经过将激活值、权重和梯度量化为低精度数值格局来减速深度神经网络训练的技术。这种方法使得在低精度配件上能够极速成功前向和后向流传,从而提高计算和内存效率。随着钻研的深化,FQT的数值精度曾经从最后的16位(FP/INT16)逐渐降低到8位(FP/INT8),并且目前一些钻研曾经将精度成功降至4位。

虽然FQT在提高训练速度方面具备后劲,但其应战在于切实了解的无余,尤其是梯度量化对收敛性的影响,以及梯度的少量化误差或者造成功能急剧降低或甚至发散。目前的钻研前沿仍逗留在4位FQT,但探求将位宽推向更低极限,即1位FQT,是未来的钻研方向。

1-bit FQT的切实剖析

在咱们的钻研中,咱们初次尝试将全量化训练的精度推向1位(1-bit FQT)。经过对Adam和SGD两种优化器的切实剖析,咱们发现梯度方差是影响FQT收敛性的关键起因。详细来说,咱们的剖析提醒了在低位宽状况下,Adam优化器比SGD更适宜于FQT,由于Adam对梯度方差的敏感度较低。

为了应答由梯度量化惹起的少量化误差,咱们提出了激活梯度修剪(Activation Gradient Pruning,AGP)战略。该战略应用梯度的异质性,经过剪除消息量较少的梯度组,并将节俭上去的资源用于提高残余梯度的数值精度,从而缩小梯度方差。此外,咱们还提出了样本通道联结量化(Sample Channel joint Quantization,SCQ)战略,该战略在计算权重梯度和激活梯度时驳回不同的量化方法,确保两者都能在低位宽计算单元上有效成功。

经过在多个数据集上对VGGNet-16和ResNet-18启动微调,咱们的1-bit FQT算法在平均精度上比每个样本量化提高了约6%,并且训练速度优化最高可达5.13倍。这些结果标明,在特定义务中,FQT的精度可以被推向极限1位。

提出的1-bit FQT算法

1-bit FQT算法是在全量化训练(Fully Quantized Training, FQT)的基础上,进一步推进模型训练中的数值精度降至1比特。全量化训练经过将激活值、权重和梯度量化到较低的数值精度,减速了深度神经网络的训练环节。在本钻研中,咱们初次尝试将FQT的精度推至1比特极限。

1.1 切实剖析

咱们基于Adam和SGD优化器对FQT启动了切实剖析。剖析结果标明,梯度的方差是影响FQT收敛性的关键起因。Adam优化器在低比特宽度训练中体现出比SGD更好的稳固性,这是由于Adam对梯度方差的敏感度较低。

1.2 算法组成

1-bit FQT算法包含激活梯度修剪(Activation Gradient Pruning, AGP)和样本通道联结量化(Sample Channel joint Quantization, SCQ)两个重要战略。AGP战略经过剪除消息量较少的梯度组,从新调配资源以提高残余梯度的数值精度,从而缩小梯度方差。SCQ战略则在权重梯度和激活梯度的计算中驳回不同的量化方法,确保这些操作能够在低比特宽度的配件上高效口头。

试验设计与结果

为了验证1-bit FQT算法的有效性,咱们在多个数据集上对VGGNet-16和ResNet-18模型启动了微调试验。

2.1 试验设置

咱们选用了包含CIFAR-10、CIFAR-100、Flowers和Pets等多个视觉分类数据集。试验中,一切模型首先在ImageNet数据集上启动预训练,而后经常使用1-bit FQT算法启动微调。

2.2 重要结果

试验结果显示,与传统的每样本量化方法相比,咱们的1-bit FQT算法在多个数据集上平均提高了约6%的准确率。特意是在Flowers和Pets数据集上,准确率损失简直可以疏忽不计(小于1%),这标明在某些状况下1-bit FQT是十分有效的。此外,咱们的方法在训练速度上最高可到达传统全精度训练的5.13倍减速。

探讨与未来方向

在本钻研中,咱们初次尝试将全量化训练(FQT)的精度推至1比特。经过切实剖析和试验验证,咱们发现梯度方差是影响FQT收敛性的关键起因。基于此,咱们提出了激活梯度修剪(AGP)战略和样本通道联结量化(SCQ)战略,有效降低了梯度方差,提高了模型的训练效率和精度。

未来的钻研方向可以从以下几个方面启动探求:

优化量化战略 :虽然咱们的AGP和SCQ战略曾经取得了必定的功效,但仍有进一步优化的空间。例如,探求更高效的梯度修剪方法或更精细的量化级别调整,以顺应更宽泛的网络结构和数据集。 裁减到其余网络架构 :目前的钻研重要集中在卷积神经网络(CNN)上,未来可以将1比特FQT裁减到其余类型的深度学习模型,如循环神经网络(RNN)和Transformer,测验其在不同架构上的普适性和有效性。 从头训练的探求 :目前1比特FQT重要运行于迁徙学习和微调场景,从头开局训练的场景仍是一个开明的疑问。未来的钻研可以探求在无预训练模型的状况下,如何有效实施1比特FQT,以及如何解决由此带来的梯度方差疑问。

本文转载自​​,作者:

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5842.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号