撰稿丨云昭
出品 | 技术栈(微信号:blog51cto)
英伟达飘了,野心收缩到让业界艳羡妒忌恨。
就在当天深夜,GTC全场高潮迭起,黄仁勋“轻咬着舌头、左手一个H100,右手一个B200”的照片,纷繁成为了业界媒体资讯的封面热图。
毋庸多问,黄教主手里拿的是什么,什么就是全场最靓的核弹!
“随着Transformer模型被发明,咱们能以惊人的速度裁减大型言语模型,实践上每六个月就能翻一番。而为了训练这些越来越大的模型,咱们也须要更强的算力。"
B200 GPU ,驳回了Blackwell架构,与Hopper架构相比,不论是允许的模型参数、还是训练功耗方面,都有着惊人的性能优化。
如黄教主展现的:
之前,假设要在90天内训练一个1.8万亿参数的MoE架构GPT模型,须要8000个Hopper架构GPU,15兆瓦功率。
而如今,雷同给90天时间,在Blackwell架构下只要要2000个GPU,同时,动力消耗大大缩减为1/4。
人造,推理生成的token老本也会随之降落。(如此一来,用配件的方法降落了大模型的训练推理老本,大模型市场落地的多少钱也会继续降落,或者SOTA模型收费Open给群众,不可企及。)
英伟达显卡的弱小之处,就在于让友商抄无可抄。黄教主现场展现Grace-Blackwell系统(两个Blackwell GPU、四个die与一个Grace Cpu衔接在一同)。
在黄教主现场演示中,GB200将两个B200 Blackwell GPU与一个基于Arm的Grace CPU启动配对。新芯片领有2080亿个晶体管,一切这些晶体管简直同时访问与芯片衔接的内存。
不得不说,NVIDIA Blackwell B200 GPU 将是一款怪物芯片。它总共蕴含 160 个 SM,20,480 个外围。GPU将驳回最新的NVLINK互连技术,允许相反的8 GPU架构和 GbE网络替换机。它也将十分耗电,峰值 TDP 为 700W,虽然这也与 H100 和 H200 芯片相反。总结一下这个芯片:
1、20 PFLOPS FP8, 是Hopper的2.5倍
2、20 PFLOPS FP6,Hopper的2.5倍
3、40 PFLOPS FP4, 是Hopper的5倍
4、740B Parameters ,是Hopper的6倍
5、34T Parameters/s,是Hopper的5倍
6、7.2 TB/s NVLINK,是Hopper的4倍
值得留意的是,第五代NVLINK高速互联:为每个GPU 提供了1.8TB/s双向吞吐量,确保多达576个GPU之间的无缝高速通讯。这样一下子处置了大规模数据中心的GPU交互疑问。
此外,Blackwell 不止步于芯片性能参数的优化,更在AI才干和安保方面下了一番“硬功夫”:
比如Ras Engine(牢靠性、可用性和可保养性引擎),可以基于AI的预防性保养来运转诊断和预测牢靠性疑问;再比如:Secure AI,这是一项先进的加密计算性能,在不影响性能的状况下包全AI模型和客户数据,关于医疗保健和金融服务等隐衷敏感行业至关关键。
不得不说,在GPU畛域,英伟达相对是业界的天花板,压力不止给到了AMD和英特尔,更给到了OpenAI,由于英伟达推出的一个GB200 NVL72就最高允许27万亿参数的模型,这瞬间就能装下15个GPT-4模型(据泄漏,GPT-4模型参数高达1.75万亿参数)。
让人猎奇的是,英伟达尚未发布 B200 整套方案的老本和售价。
作为参考,Blackwell的前身 Hopper ,其旗舰款 H100 作为科技界最宝贵的商品之一,每颗芯片售价一度飙至4万美金。而 B200 只会愈加低廉,这个多少钱恐怕只要科技巨头们才干思考入手。
依据剖析师预测, B200 GPU 售价为 30,000 美元至 35,000 美元,而GB200 芯片的平均售价将到达惊人的 60,000 美元至 70,000 美元。
便捷剖析一下跟不上的要素:
1.要抵赖复刻确实很难,短期基本无法能。这方面技术受地缘限度,从光刻机、到设计软件、再到供应链的包围,层层关卡,想要成功性能上的打破,先进的设施和技术都有待攻克。
2.不足生成式AI相应的软件配套服务。理想上,繁多层面讲国产算力匮乏并不主观,中科曙光、紫光、浪潮等不时在显卡方面取得了相当清楚的成果。但是,即使有了配件算力,与之相婚配的软件配套才干与英伟达比起来,仿佛就黯然失色了。
3.即使有了,面对弱小的竞争环境,自身盈利的要求也是十分大的应战。英伟达等生态规划很早,气象曾经大成,虹吸效应。
从头搭建一套的老本破费渺小,即使“造出火箭”来,也没有好的买家买单,这也是为什么国际厂商难以跟进的主观要素。
攻坚克难,须要保持不懈的投入和信心。国际的GPU市场规模很大,也不是英伟达一家能通吃的天下。依据Verified Market Research的预测,到2027年,中国大陆的GPU市场规模估量将增长至345.57亿美元。
那英伟达的对手在哪里?没错,华为。
被英伟达列为最大竞争对手之一的华为,也走上了自研国产GPU的路线。华为推出的最强芯片「昇腾 910」,关键面向 AI 数据迷信家和工程师,算力可达256TFOPS,超越了谷歌的 TPU v3 及英伟达的 GPU Tesla V100芯片。
不过值得留意的是,国际看,即使配件性能追上英伟达,在软件框架层、模型层、生态层也亟需追逐。
英伟达成立于1993年,马上行将迎来31周年,黄仁勋率领下的“GPU”如今早已不止是“游戏”发烧友的配件性能,而是正在成为新一轮技术改革的“超级充电厂”。
关注本次GTC的好友,不难留意到英伟达重磅推出的AI微服务网站NIM,AI消费劲的编程时代曾经来到。
之前,整个PC互联网都在面向CPU编程,而如今,黄教主以为AI时代下,面向GPU的开发技术栈更为被业界迫切须要。
面向外界,黄仁勋给出了一个坚决的信号:“减速计算抵达了临界点,通用计算曾通过期了。”
参考:
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/4215.html