GPU训练CPU推理用最优的老本降落AI算力支出解读AI通用计算芯片

电脑网络维修
2024-11-14

，人工默认曾经成为推进企业业务翻新和可继续开展的外围引擎。咱们知道，算力、算法和数据是人工默认的三大外围要素，缺一无法。当天，笔者就从通用计算芯片这个维度登程，跟大家详细聊聊关于算力的关系技术与市场竞争态势。

所谓AI计算芯片（也称逻辑芯片），就是指蕴含了各种逻辑门电路，即能够启动运算，又能够启动逻辑判别的数字芯片，包括CPU、GPU、FPGA、ASIC等。这里，咱们将经过一些比喻重点跟大家引见一下CPU与GPU这两种通用计算芯片，宿愿大家看完本篇文章，能够真正了解CPU与GPU的关键差异，以及相互之间的优劣势。

计算机基本架构及原理

要了解CPU与GPU的实质区别，首先要便捷地意识一下计算机的基本架构。

从数据输入到结果输入，如今的计算机大都是基于 1940年代降生的冯·诺依曼架构关键有输入设备、存储器、

将外部数据输入到数据处置引擎中；

担任计算环节中暂时数据的存储与读取，关键用来提高数据的读写效率；

担任接纳数据处置的控制命令，并且口头对整个处置引擎的控制和形态启动实时反应；

演进而来，但由于驳回了不同的架构，因此双方在计算性能上存在着较大的差异。接上去，咱们就经过以英特尔为代表的x86架构和以英伟达为代表的CUDA（NV-RSIC）架构，来引见一下两者的不同之处。

架构设计不同带来的差异

作为计算机中的外围部件，就像咱们人类的大脑一样，它不只仅要口头各种复杂的计算义务，还要担任控制其它部件之间的单干。因此，除了计算单元外，控制单元也在CPU中表演着关键的角色。（CPU架构表示如下图）

上图可以看到，在整个CPU架构中，担任计算的绿色区域占的面积相对并不算大，反而黄色区域因此，除了计算之外，CPU也比拟长于逻辑控制。

，是以串行形式启动计算的。指令在就像一个工厂消费车间中的一条流水线，即先经过指令总线送到控制器中启动译码，并收回相应的操作控制信号；而后运算器依照操作指令对数据启动计算，并经过数据总线将获取的数据存入数据缓存器，成功一条指令的计算环节。（如下图）

取指令 ->指令译码 ->指令口头只要在指令口头的时刻计算单元才施展作用，这样取指令和指令译码的两段期间，计算单元，这就会形成计算效率不高。

为了提高指令口头的效率，在不同的指令之间，经过预先读取前面的几条指令，使得指令流水处置，这样就缩小了指令期待的环节，提高了指令口头效率。(如下图)

当然，提高时钟频率、参与更多的外围数量，也能够有效地提高CPU的计算效率，但随着技术瓶颈的发生，提高外围数量和提高时钟频率的难度越来越大，且带来的性能优化比例越来越小。

不难发现，受架构影响，CPU有着很强的逻辑运算才干，但并不 1+1=2的少量数据的并行计算。因此，在AI训练环节中，须要大规模并行计算时，CPU的长处就十分不显著了。

在计算机中，GPU最后设计的初衷是减速图形图像处置，即公用减速器。因此，GPU外部驳回了并行计算的设计，控制单元仅占很小的一局部。（见下图）

上图可以看到，GPU外部领有少量的计算单元。由于驳回了并行架构设计，每一组计算单元都有独自的缓存和控制器。

由于具有少量的计算单元，仅用来启动图形图像处置，运行范畴过于狭窄，也无法真正施展GPU的价值。于是，NVIDIA提早感知到AI将成为未来的关键技术趋向，并将GPU外部的计算单元启动了通用化的从新设计，GPU变成了GPGPU，即通用并行计算平台，也就是当天咱们所指的GPU。

GPU不只能够处置图形数据，还可以处置非图形化数据，特意是在运算量远大于数据调度和传输的计算时，GPU的性能远远大于CPU，因此在启动少量数据的训练时，GPU有着更强的长处。

当然，由于控制单元并不占长处，因此在启动逻辑运算时，GPU并不占长处。也就是说，让GPU启动少量数据的便捷运算，速度更快，就像把少量的土豆所有切成片，GPU会更快。然而，假设让它执行将一小局部土豆切成丝，一大局部切成片这样的义务时，GPU就不占长处了。

CPU vs GPU：正当搭配降落AI总体老本

经过以上引见不难发现，由于底层架构存在着较大的差异，因此双方在AI运算中也表演着不同的角色。

举个例子，CPU具有更强的逻辑运算才干，就如同一位资深的老传授；GPU并行计算才干更优，就如同很多小在校生同时启动1+1的便捷计算。在同时启动少量便捷的计算义务时，人数越多越占长处，成功的期间就越短；然而，假设在启动微积分等愈加复杂的计算义务时，CPU就愈加占有长处。

详细到AI计算方面，由于CPU有着更强的逻辑运算才干，就愈加适宜推理；而GPU领有少量的计算单元，就更适宜训练。

当然，无论是英特尔还是英伟达，都在经过始终启动架构优化，来提高AI的计算才干。例如英特尔，在最新推出的第五代至强可裁减处置器中，经过在每个内核中都内置英特尔 AVX-512和AMX都可以在CPU上经常使用，以提高AI推理的性能。依据官网给出的数据，基础平均性能较上一代优化 21%，而AI推理性能的优化则高达42% 得益于内置的英特尔初级矩阵裁减配置，第五代至强处置器无需搭配独立的AI减速器，就可以间接接待严苛的AI上班负载。

GTC2024上颁布的全新B200 GPU，驳回了两个GPU die集成在同一芯片上的设计，并装备了192GB的HBM3e超大内存。基于GB200 NVL72打造的MGX系统，能够成功30TB的一致内存，130TB/s的总带宽，甚至是单机柜exaFLOP级（FP4精度）的AI算力。英伟达表示，即使面对1.8万亿参数的GPT-MoE-1.8T超大模型，也可以成功比同数量H100 GPU高出4倍的训练性能。

只管目前GPU的热度远高于CPU，但在笔者看来CPU依然无法代替。要素在于，CPU岂但具有更强的推理才干，并且领有更高的性价比。这是由于，目前大局部数据中心中并不缺少CPU计算资源，且相对部署曾经愈加完善和成熟。因此，思考到老本要素，包括洽购老本、部署老本、经常使用老本（功耗）等，也成为泛滥厂商选用CPU启动推理的关键要素。

关注微信

上一篇：CentOS上Docker服务不可启动的处置打算

下一篇：如何保管和复原TensorFlow训练的模型

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：https://duobeib.com/diannaowangluoweixiu/5165.html

GPU训练CPU推理用最优的老本降落AI算力支出解读AI通用计算芯片

计算机基本架构及原理

架构设计不同带来的差异

CPU vs GPU：正当搭配降落AI总体老本

猜你喜欢

热门标签

随便看看

TCP发送窗口接纳窗口以及其上班原理

I 如何发现 PostgreSQL 和中那些消耗 CPU

如何改良DevOps上班流

安保无大事安保防范从Nginx性能做起程序员安保规范

斯坦福学者提出Edu

热门资讯

阅读排行

如何优雅地封锁线程池

Windows11系统卸载更新的两种方法

Teradata推出下一代大数据运行

智能体初次到达Kaggle 华为用结构化推理补齐思想链短板 Grandmaster水平

win11系统白屏解决方法 win11白屏怎么解决

关注我们

GPU训练CPU推理 用最优的老本降落AI算力支出 解读AI通用计算芯片

计算机基本架构及原理

架构设计不同带来的差异

CPU vs GPU：正当搭配降落AI总体老本

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号

GPU训练CPU推理用最优的老本降落AI算力支出解读AI通用计算芯片