大模型的泡沫什么时刻破灭

电脑网络维修
2024-11-15

作者 | 沈旸

出品 | 技术栈（微信号：blog51cto）

关于技术泡沫，大家或者最相熟的就是Gartner的技术成熟度曲线图。过去几年确实产生了许多备受关注的技术，例如云计算、大数据、区块链和元宇宙。新技术让人激动，但很多企业在跟进这些技术时往往优柔寡断，担忧不下注未来会被淘汰，也担忧投入渺小但方向失误。

例如，前几年Facebook押注元宇宙，甚至将公司称号改为Meta，但元宇宙的技术成熟度和市场开展并未到达预期。幸亏，Meta公司在大模型时代及时调整方向，特意是在开源大模型上为社区做出了渺小奉献。那么，这次大模型的技术开展周期是怎么的，会产生短期见顶的状况吗？

Meta于7月23日颁布了Llama 3.1 405B开源人工自动模型，这是Meta迄今为止最弱小的模型，也是目前环球最弱小的开源大模型。在某些方面，超大杯Llama 3.1 405B超越了GPT-4 0125，与GPT-4o和Claude 3.5互有输赢。例如，它在NIH/Multi-Needle基准测试中的得分为98.1，在ZeroScrolls/Quality基准测试中的得分为95.2，在解决长文本方面体现杰出，在Human-Eval基准测试中也略占下风。

从最终成果来看，鼎力仍能出奇观，Scaling Law依然有效。在Llama3.1的大模型中，70B和8B大小参数的模型也比之前的版本有了十分大的功能优化，这两个规模的开源模型十分适宜企业部署。

从2022年底OpenAI推出大模型后，从一开局的聊天运行，到起初的RAG，Agent，多模态，视频解决等，AI的运行落地通常其实是越来越成熟，开源的大模型也被宽泛运行在企业的各种业务场景中。

然而因为一切的大模型都简直用同一套规范的接口，使得大模型很难像传统软件那样打造专属的生态圈，从而建设竞争护城河。用户从一个大模型切换到另外一个大模型，简直不要求什么老本，每个月都会有降级更好用老本更低的大模型进去。这也使得市场和投资界对大模型的商业价值持疑态度，以为其开展或者相似于几年前的各种技术概念泡沫。

Llama 3.1 405 模型是在一个蕴含了16384 块Nvidia H100 80GB GPU 集群上训练了整整54天，其中产生了417 次异常终止。假设依照每小时每张卡3美金的H100租赁老本，加上CPU、内存、磁盘、网络等配件资源每小时估量5美金的成本来算，这次训练就要求1亿美金的配件老本。再加上数据购置、人工训练、保养和调优的费用，一次性大模型的训练老本或者超越2亿美金。而目前SpaceX发射一次性星舰火箭的老本也不到一亿美金，这曾经是商业航天里运力最强的火箭。

目前，人类正以极大的激情投入AI畛域，受益于AI的炽热，英伟达的股价在两年内下跌了10倍以上，市值超越3万亿美元。每个月都有企业发表推出新的大模型，消耗了几个小指标，始终地刷新榜单。这不由让大家联想到20世纪60年代美苏争霸期间的太空比赛。

1957年苏联成功发射环球上第一颗天然卫星——斯普尼克一号。1958年，苏联宇航员尤里·加加林成为第一个进入太空的人，乘坐西方1号（Vostok 1）绕地球飞行。这一事情引发了美国的极大震惊和反响，美国总统艾森豪威尔签订了《国度航空航天法》，成立了美国国度航空航天局（NASA），以应答苏联在太空比赛中的上游位置。

在1969年，美国成功成功了载人登月方案。阿波罗11号义务中，尼尔·阿姆斯特朗（Neil Armstrong）和巴兹·奥尔德林（Buzz Aldrin）成为首批登上月球的人类。阿波罗方案共启动了17次义务，其中6次成功登月，最后一次性是1972年的阿波罗17号。阿波罗方案的实践支出略高于估算，大概为257亿美元。按现值计算，其破费相当于2000亿美元，但它成功了人类历史上的严重打破。太空比赛的角逐中，除了航天技术以外，还推进了计算机技术、资料迷信和通讯技术的提高，咱们当天十分多的技术都孵化于当年的太空探求。

很多人或者会很猎奇，既然登月方案那么成功，人类为什么没有继续转向火星和更远的太空呢？首先，技术上的应战远超预期。火星距离地球悠远得多，火星到地球的距离约为月亮到地球距离的586倍；长达数月甚至数年的飞行期间，以及在生疏星球上生活所需的复杂生命允许系统，都给迷信家们带来了史无前例的难题。其次，高昂的老本也是一个无法漠视的起因，估量火星义务的估算将至少比阿波罗方案高10倍以上。事实是资源有限，必定优先解决地球上的诸多疑问，地球上即使是生活条件最顽劣的中央也比月球和火星更宜居。

虽然过后的各国政府和迷信家们对太空探求都充溢激情，但下一个指标跨度太大、老本太高，让单纯的刷榜行为失去了能源。阿波罗登月这一事情被以为是太空比赛的巅峰，之后美苏的竞争反而转向了地球轨道空间站和无人深空探测等方向。

目前，大模型的训练或者也会遇到相似的瓶颈，那就是下一个指标的老本或者遥无法及。目前最强的开源大模型曾经到达了0亿参数，但仍未成功通用人工自动。假定下一步质变惹起质变的规模是十万亿参数，训练更大的模型往往要求更多的参数，其全体训练量和老本的参与远超越参数增长倍数。训练十万亿规模参数的大模型，或者要求几十万张H100的显卡的集群这样一次性训练的老本或者到达100亿美元。从过去的太空比赛来看，100亿美元单个名目或者是目先人类社会能接受的极限。毕竟，下一个量级的百万亿参数大模型，其对应训练总老本很或者超越1万亿美元，这简直是无法成功的。

假设100亿美金砸下去了，10万亿规模参数的大模型还是没法成功AGI，那么基于Transformer架构的大模型是不是短期就到头了？不过这个结果很或者会启示人们去探求Transformer之外的架构体系，例如量子计算，类脑芯片等。

10万亿规模参数的大模型，会是Transformer架构的登月时辰么？

本文转载自技术栈，作者：沈旸

关注微信

上一篇：训练原理与环节从做菜的角度来更笼统的了解什么是大模型的参数

下一篇：是如何预计与剖析模型计算量的 OpenAI

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：https://duobeib.com/diannaowangluoweixiu/5600.html

大模型的泡沫什么时刻破灭

猜你喜欢

热门标签

随便看看

TCP发送窗口接纳窗口以及其上班原理

I 如何发现 PostgreSQL 和中那些消耗 CPU

如何改良DevOps上班流

安保无大事安保防范从Nginx性能做起程序员安保规范

斯坦福学者提出Edu

热门资讯

阅读排行

Python中的基本函数及其罕用用法简析

Mac 迎来高光时辰 mini

机器学习和深度学习如何辨别人工智能

win10系统u盘插上不显示怎么解决

windows11软件固定任务栏设置的方法 win11系统怎么把应用固定到任务栏？

关注我们

大模型的泡沫什么时刻破灭

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号