NVIDIA Spectrum 运行

  • 电脑网络维修
  • 2024-11-15

法国云服务提供商 Scaleway正在基于 NVIDIA的 Hopper GPU 和 Spectrum-X以太网网络平台构建区域性 GPU集群,为用户提供 AI 按需服务业务。

Scaleway 是法国的一家领有高性能基础设备的云服务提供商,创立于 1999年,领有 80+ 云产品及服务,为环球 25,000+ 客户提供云服务,客户包含 Mistral AI、Aternos、Hugging Face、Golem.ai 等。 Scaleway 提供一站式的云服务,以开发翻新处置打算并协助用户从零开局构建和扩展 AI名目,目前 Scaleway 正在构建区域 AI 云,提供 GPU 基础设备,用于大规模的 AI 模型训练、推理及部署。

云AI 上班负载需求正以史无前例的速度增长,同时生成式AI 运行也在激增。为满足客户部署生成式AI 运行程序、训练基础 AI 大模型的需求,云服务提供商面临渺小应战,须要构建 AI 云,经常使用减速计算技术和高性能网络来允许 AI 业务。Scaleway 的外围需求包含:

●关于散布式 AI训练义务,单个义务的训练期间由最慢的计算节点的运转期间选择,这使得尾部提前至关关键。AI云须要一个高吞吐、低提前、低颤抖、易扩展的高性能网络,来确保 GPU间极速、高效的通讯,尤其是在大规模部署的场景下。

●在多个AI 义务同时运转的多租户环境中,性能隔离关于包全一个租户的AI 义务免受其余租户业务的影响是必无法少的。由此提出了对多租户多义务场景下性能隔离的需求。

● 关于复杂的 AI云环境,须要专门实用于 AI 网络的监控控制工具,提供细粒度的网络可视化性能、同时具有网络监控和缺点定位才干。

● 为成功 AI云数据中心的高效、极速部署,须要弱小的网络仿真及智能化平台。

● 随着云上用户、数据、运行的极速增长,网络安保要挟不容漠视,须要提供私有的、安保的零信赖基础设备,保证用户的业务安保。

Scaleway 驳回了 NVIDIA 的Hopper GPU 和Spectrum-X 网络平台应答以上应战。

Scaleway 将 HGX Hopper GPU 主机参与其 GPU 集群阵容中,以笼罩宽泛的计算需求,应用 GPU 的速度和效率减速 AI 散布式上班负载。

关于 Scale-OutAI 网络,Scaleway 驳回了基于 BlueField-3 SuperNIC 和 Spectrum SN5600 替换机构建的 Spectrum-X 网络平台。 NVIDIA 的 Spectrum-X 网络平台是环球首个专为 AI 构建的以太网端到端处置打算,与传统以太网相比,其生成式AI 训练的网络通讯效率提高了 1.6 倍。同时 Spectrum-X 部署将应用以下网络软件堆栈:

●NVIDIA Air 用于 AI 网络仿真,NVIDIA Air 是一个云托管的数据中心网络仿真平台,其行为相似于实在环球的消费环境。经常使用NVIDIA Air 创立数据中心的数字孪生,可以验证网络性能、网络性能以及智能化部署代码,优化数据中心的部署效率。

●NetQ 用于 AI 网络监控,经过高频遥测技术监控 AI 上班负载,NetQ 提供无关数据中心运转状况的数据和统计消息,关联性能和运转形态,并跟踪形态变动。基于遥测消息,NetQ提供灵活路由监控,RoCE 流量计数器,替换机队列直方图等性能,以识别和应答网络微突发、拥塞场景,繁难网络缺点定位。

●Cumulus Linux 用于软件驱动的数据中心网络智能化,CumulusLinux 是翻新的放开网络操作系统,允许 BGP/OSPF 路由协定,以太网虚构公用网络 EVPN,虚构路由和转发。

● DOCA SDK 和库用于增强 BlueField-3 SuperNIC 性能,DOCA SDK 提供行业规范的放开 API 和软件框架,包含针对 RDMA、网络、安保、存储、数据门路减速的 SDK,协助开发者极速创立软件定义、SuperNIC 减速的服务。

●配件:

●软件:

驳回 NVIDIA的全体处置打算后,极大地优化了 AI 计算才干,缩短了 AI 训练期间,同时减速了 AI 处置打算的开发、部署和上市期间,有效提高了投资报答率。

●Scaleway 客户可以从几个 GPU 扩展到几千个 GPU,以顺应任何 AI 用例

●Spectrum-X 提供多租户、多义务的 AI 环境所需的高性能和安保性, 借助灵活路由、拥塞控制、全局共享缓冲区等多种机制,成功了多义务的性能隔离。

●NetQ 提供对 AI 网络肥壮状况的深度可视性,具有 RoCE 流量计数器、事情和WJH(What Just Happened)警报等丰盛的仪表板,成功 AI 网络可视化、缺点扫除和验证性能。

●NVIDIA Air 和 Cumulus Linux 允许 API 原生网络环境,该环境可集成到 DevOps 工具链中,成功了第 0 天、第 1 天 和第2 天操作的无缝衔接。

NVIDIA 网络初级副总裁 Gilad Shainer 示意:“生成式 AI 等开创性技术的飞速开展,使每家企业都必定把网络翻新放在第一位,从而取得竞争长处。NVIDIASpectrum-X 是对以太网络的一次性反派,让企业能够充沛应用其AI 基础设备的弱小力气来扭转其运营形式,甚至推翻他们的行业。”

Scaleway 首席口头官 Damien Lucas 示意:“NVIDIA Spectrum-X 网络技术为咱们的 ‘ GPU 集群按需服务’ 提供了更快的网络衔接和更高效的 GPU 通讯,使咱们的客户能够减速开发和部署他们的AI 处置打算。”

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/7599.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号