大模型的泡沫什么时刻破灭

  • 电脑网络维修
  • 2024-11-15

作者 | 沈旸

出品 | 技术栈(微信号:blog51cto)

关于技术泡沫,大家或者最相熟的就是Gartner的技术成熟度曲线图。过去几年确实产生了许多备受关注的技术,例如云计算、大数据、区块链和元宇宙。新技术让人激动,但很多企业在跟进这些技术时往往优柔寡断,担忧不下注未来会被淘汰,也担忧投入渺小但方向失误。

例如,前几年Facebook押注元宇宙,甚至将公司称号改为Meta,但元宇宙的技术成熟度和市场开展并未到达预期。幸亏,Meta公司在大模型时代及时调整方向,特意是在开源大模型上为社区做出了渺小奉献。那么,这次大模型的技术开展周期是怎么的,会产生短期见顶的状况吗?

Meta于7月23日颁布了Llama 3.1 405B开源人工自动模型,这是Meta迄今为止最弱小的模型,也是目前环球最弱小的开源大模型。在某些方面,超大杯Llama 3.1 405B超越了GPT-4 0125,与GPT-4o和Claude 3.5互有输赢。例如,它在NIH/Multi-Needle基准测试中的得分为98.1,在ZeroScrolls/Quality基准测试中的得分为95.2,在解决长文本方面体现杰出,在Human-Eval基准测试中也略占下风。

从最终成果来看,鼎力仍能出奇观,Scaling Law依然有效。在Llama3.1的大模型中,70B和8B大小参数的模型也比之前的版本有了十分大的功能优化,这两个规模的开源模型十分适宜企业部署。

从2022年底OpenAI推出大模型后,从一开局的聊天运行,到起初的RAG,Agent,多模态,视频解决等,AI的运行落地通常其实是越来越成熟,开源的大模型也被宽泛运行在企业的各种业务场景中。

然而因为一切的大模型都简直用同一套规范的接口,使得大模型很难像传统软件那样打造专属的生态圈,从而建设竞争护城河。用户从一个大模型切换到另外一个大模型,简直不要求什么老本,每个月都会有降级更好用老本更低的大模型进去。这也使得市场和投资界对大模型的商业价值持疑态度,以为其开展或者相似于几年前的各种技术概念泡沫。

Llama 3.1 405 模型是在一个蕴含了16384 块Nvidia H100 80GB GPU 集群上训练了整整54天,其中产生了417 次异常终止。假设依照每小时每张卡3美金的H100租赁老本,加上CPU、内存、磁盘、网络等配件资源每小时估量5美金的成本来算,这次训练就要求1亿美金的配件老本。再加上数据购置、人工训练、保养和调优的费用,一次性大模型的训练老本或者超越2亿美金。而目前SpaceX发射一次性星舰火箭的老本也不到一亿美金,这曾经是商业航天里运力最强的火箭。

目前,人类正以极大的激情投入AI畛域,受益于AI的炽热,英伟达的股价在两年内下跌了10倍以上,市值超越3万亿美元。每个月都有企业发表推出新的大模型,消耗了几个小指标,始终地刷新榜单。这不由让大家联想到20世纪60年代美苏争霸期间的太空比赛。

1957年苏联成功发射环球上第一颗天然卫星——斯普尼克一号。1958年,苏联宇航员尤里·加加林成为第一个进入太空的人,乘坐西方1号(Vostok 1)绕地球飞行。这一事情引发了美国的极大震惊和反响,美国总统艾森豪威尔签订了《国度航空航天法》,成立了美国国度航空航天局(NASA),以应答苏联在太空比赛中的上游位置。

在1969年,美国成功成功了载人登月方案。阿波罗11号义务中,尼尔·阿姆斯特朗(Neil Armstrong)和巴兹·奥尔德林(Buzz Aldrin)成为首批登上月球的人类。阿波罗方案共启动了17次义务,其中6次成功登月,最后一次性是1972年的阿波罗17号。阿波罗方案的实践支出略高于估算,大概为257亿美元。按现值计算,其破费相当于2000亿美元,但它成功了人类历史上的严重打破。太空比赛的角逐中,除了航天技术以外,还推进了计算机技术、资料迷信和通讯技术的提高,咱们当天十分多的技术都孵化于当年的太空探求。

很多人或者会很猎奇,既然登月方案那么成功,人类为什么没有继续转向火星和更远的太空呢?首先,技术上的应战远超预期。火星距离地球悠远得多,火星到地球的距离约为月亮到地球距离的586倍;长达数月甚至数年的飞行期间,以及在生疏星球上生活所需的复杂生命允许系统,都给迷信家们带来了史无前例的难题。其次,高昂的老本也是一个无法漠视的起因,估量火星义务的估算将至少比阿波罗方案高10倍以上。事实是资源有限,必定优先解决地球上的诸多疑问,地球上即使是生活条件最顽劣的中央也比月球和火星更宜居。

虽然过后的各国政府和迷信家们对太空探求都充溢激情,但下一个指标跨度太大、老本太高,让单纯的刷榜行为失去了能源。阿波罗登月这一事情被以为是太空比赛的巅峰,之后美苏的竞争反而转向了地球轨道空间站和无人深空探测等方向。

目前,大模型的训练或者也会遇到相似的瓶颈,那就是下一个指标的老本或者遥无法及。目前最强的开源大模型曾经到达了0亿参数,但仍未成功通用人工自动。假定下一步质变惹起质变的规模是十万亿参数,训练更大的模型往往要求更多的参数,其全体训练量和老本的参与远超越参数增长倍数。训练十万亿规模参数的大模型,或者要求几十万张H100的显卡的集群这样一次性训练的老本或者到达100亿美元。从过去的太空比赛来看,100亿美元单个名目或者是目先人类社会能接受的极限。毕竟,下一个量级的百万亿参数大模型,其对应训练总老本很或者超越1万亿美元,这简直是无法成功的。

假设100亿美金砸下去了,10万亿规模参数的大模型还是没法成功AGI,那么基于Transformer架构的大模型是不是短期就到头了?不过这个结果很或者会启示人们去探求Transformer之外的架构体系,例如量子计算,类脑芯片等。

10万亿规模参数的大模型,会是Transformer架构的登月时辰么?

本文转载自​ ​技术栈​ ​,作者:沈旸

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5600.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号