“过去12年的AI热潮得益于三位在面对宽泛批判时依然谋求非传统理念的先驱。
他几十年如一日地推行神经网络,虽然简直一切人都疑心它。
他早早看法到GPU不只仅能用于图形解决。
她创立了一个在大少数同行看来荒唐庞大的图像数据集,最终证实了经常使用GPU训练的神经网络的后劲。”
Understanding AI 社区上的这篇《为什么深度学习的蓬勃开展让简直一切人都措手不迭?》,以庞大的视角回忆了这波 AI 潮的来源, 神经网络、大数据集和 GPU 计算这三大元素如何融合在历史的节点。
以史为鉴,作者也以为AI的打破须要勇于走出“Scaling laws”:“ 我以为,在未来几年,‘Scaling laws’或者会失效。 假设那时到来,咱们将须要新一代固执的非传统主义者来发觉到旧方法不起作用并尝试新的方向。”
一个读者感叹地评道,“我在人工智能畛域上班了 30 多年,不时从事与符号人工智能关系的上班,如知识示意、智能推理、智能代理等。我从未想过,那些 "亚符号"(留意这里的蔑视)神经网络能胜任字符识别之外的任何上班。而当天,咱们却在这里探讨新的人工智能系统何时才干到达 AGI 水平(不过我想,在这十年内是无法能的)。”
以下是作者Timothy B Lee 的《Why the deep learning boom caught almost everyone by surprise》这篇文章的翻译,enjoy:
在普林斯顿读计算机迷信钻研生的第一个学期,我选了COS 402:人工智能。学期末有一节关于神经网络的课。这是2008年秋天,从那节课和课本中,我清楚觉失掉——神经网络曾经成了一个边缘畛域。
在20世纪80年代末到90年代初,神经网络取得了一些令人印象深入的成绩。但是,停顿随后停滞。到2008年,许多钻研人员转向了愈加优雅的数学方法,比如支持向量机。
过后我不知道,普林斯顿的一支团队——就在我听课的计算机迷信大楼里——正在启动一个名目,这个名目将推翻传统观念,展现神经网络的弱小才干。那支团队由李飞飞传授指导,他们并没有开发更好的神经网络版本,甚至简直没有思索神经网络。
相反,他们正在创立一个史无前例的大型图像数据集:1万张图像,每张图像都标注了将近2.2万个类别之一。
李飞飞在她的最新回想录《The Worlds I See》中讲述了ImageNet的故事。在名目启动中,她遇到了许多好友和共事的质疑。
“我以为你把这个想法带得太远了,”一位导师在2007年名目开局几个月后对她说,“窍门是追随你的畛域生长,而不是跳得太超前。”
不只是创立如此庞大的数据集是一个庞大的后勤应战,人们还疑心过后的机器学习算法能否能够从如此庞大的图像汇合中受益。
“在ImageNet之前,人们并不置信数据的价值,”李飞飞在9月计算机历史博物馆的一次性采访中说,“每团体都在用很少的数据钻研齐全不同的AI范式。”
不顾负面评估,李飞飞保持名目超越两年。这消耗了她的钻研预算,也考验了她钻研生们的耐烦。2009年她在斯坦福找到了一份新上班,她带着几位在校生以及ImageNet名目返回加州。
ImageNet在2009年发布后最后几年简直没有遭到关注。但是在2012年,多伦多大学的一个团队在ImageNet数据集上训练了一个神经网络,在图像识别方面取得了史无前例的功能。那个划时代的AI模型,因首席作者Alex Krizhevsky的名字而得名AlexNet,引发了继续至今的深度学习热潮。
AlexNet的成功离不开ImageNet数据集。雷同,假设没有Nvidia的CUDA平台使图形解决单元(GPU)能在非图形运行中经常使用,AlexNet也无法成功。2006年Nvidia推出CUDA时,很多人持疑心态度。
过去12年的AI热潮得益于三位在面对宽泛批判时依然谋求非传统理念的先驱。一位是多伦多大学的Geoffrey Hinton,他几十年如一日地推行神经网络,虽然简直一切人都疑心它。
第二位是Nvidia的CEO黄仁勋,他早早看法到GPU不只仅能用于图形解决。
第三位是李飞飞。她创立了一个在大少数同行看来荒唐庞大的图像数据集,最终证实了经常使用GPU训练的神经网络的后劲。
神经网络是数千、数百万甚至数十亿个神经元的网络。每个神经元是一个数学函数,基于输入的加权平均值发生输入。
假定你想创立一个能够识别手写十进制数字(比如白色方框中的数字2)的网络。这样的网络会接纳图像中每个像素的强度值作为输入,并输入一个关于十个或者数字(0、1、2等)的概率散布。
为了训练这个网络,首先用随机权重初始化它。而后,将它运行于一系列示例图像。关于每张图像,经过增强那些推进网络趋势正确答案的衔接(在这种状况下,是“2”输入的高概率值)并削弱那些推进失误答案的衔接(降低“2”的概率、提高其余数字的概率)来训练网络。假设在足够多的示例图像上启动训练,当显示数字2时,模型应该能够预测出“2”有较高的概率,而其余状况则不会。
在20世纪50年代末,迷信家们开局尝试经常使用蕴含单层神经元的基础网络。但是,当他们发现这种便捷的网络缺乏成功复杂计算的才干时,最后的激情逐渐衰退。
更深层的网络——即蕴含多层的网络——具备更高的灵敏性后劲。但是,在20世纪60年代,人们并不知道如何高效地训练这些网络。由于在多层网络的两边层扭转一个参数,或者会对输入发生复杂且无法预测的影响。
因此,当辛顿在20世纪70年代开局他的职业生涯时,神经网络已不再遭到欢迎。辛顿宿愿钻研神经网络,但他难以找到一个适合的学术环境来启动钻研。在1976年至1986年时期,辛顿曾在四个不同的钻研机构任职:萨塞克斯大学(University of Sussex)、加州大学圣地亚哥分校(UCSD)、英国医学钻研委员会的一个分支机构,最后是在卡内基梅隆大学(Carnegie Mellon),他于1982年成为该校的传授。
在1986年,辛顿与他在UCSD的两位前共事大卫·鲁梅尔哈特(David Rumelhart)和罗纳德·威廉姆斯(Ronald Williams)独特宣布了一篇具备里程碑意义的论文,引见了一种名为“反向流传”(backpropagation)的技术,用于高效训练深层神经网络。
他们的想法是从网络的最后一层开局,逐渐向后推导。关于最后一层中的每一个衔接,该算法计算出一个梯度——即增强该衔接的强度能否会将网络推向正确答案的数学预算。基于这些梯度,该算法调整模型最后一层中的每个参数。
而后,该算法将这些梯度反向流传到倒数第二层。一个关键翻新点在于一种公式——基于高中微积分中的链式规律——用于基于后一层的梯度来计算前一层的梯度。应用这些新的梯度,该算法降级模型倒数第二层中的每个参数。随后,梯度再次反向流传到倒数第三层,偏重复整个环节。
该算法在每一轮训练中只对模型启动庞大的调整。但随着这个环节在不可胜数、数百万、数十亿甚至数万亿的训练样本上重复启动,模型的准确性会逐渐提高。
辛顿和他的共事们并非第一个发现反向流传基本思维的人,但他们的论文遍及了这种方法。随着人们看法到如今可以训练更深层的网络,这引发了对神经网络的新一轮激情。
1987年,辛顿搬到了多伦多大学,并开局吸引宿愿钻研神经网络的年轻钻研人员。法国计算机迷信家杨立昆(Yann LeCun)是其中之一,他在1988年搬到贝尔试验室之前,曾在辛顿身边做了一年的博士后钻研。
辛顿的反向流传算法让杨立昆得以训练深度足够的模型,能够在诸如手写识别等事实义务中体现良好。到90年代中期,杨立昆的技术效果如此杰出,以致于美国的银行开局用它来解决支票。
“在某个时期,杨立昆的系统读取了全美超越10%的支票。”凯德·梅茨(Cade Metz)在2022年出版的《天赋制作者》一书中写道。
但是,当杨立昆和其余钻研人员尝试将神经网络运行于更大、更复杂的图像时,效果并不理想。神经网络再度失宠,一些专一于神经网络的钻研人员也转向了其余名目。
辛顿一直坚信神经网络能够逾越其余机器学习方法。但要真正证实这一点,他还须要许多年才干取得足够的数据和计算才干。
每台团体计算机的大脑是中央解决单元(CPU)。这些芯片设计为按顺序一步步口头计算,关于像Windows和Office这样的传统软件来说,这样的形式齐全可以满足需求。但是,一些视频游戏须要极高的计算量,这对CPU的才干是极大的考验。像《雷神之锤》、《使命呼唤》和《侠盗猎车手》这类游戏尤其如此,它们每秒出现多个三维环球画面。
因此,玩家们依赖GPU来优化功能。GPU外部有许多口头单元——实质上是微型的CPU——集成在一个芯片上。在游戏中,不同的口头单元担任绘制屏幕的不同区域。这种并行解决能够成功比单纯用CPU更高的图像品质和更高的帧率。
Nvidia在1999年发明了GPU,并自那时起不时主导市场。到了2000年代中期,Nvidia的首席口头官黄仁勋(Jensen Huang)开局疑心GPU的弱小计算才干能否可以用于游戏以外的运行。他宿愿迷信家们能够将其用于计算密集型义务,比如天气模拟或石油勘探。
因此在2006年,Nvidia发布了CUDA平台。CUDA准许程序员编写“内核”,即为单个口头单元设计的冗长程序。内核可以将庞大的计算义务合成为小块并行解决的义务,从而使某些类型的计算比单靠CPU更快成功。
但是,正如Steven Witt去年在《纽约客》上所写,CUDA最后发布时简直没有惹起兴味:
“CUDA在2006年末发布时,华尔街反响淡薄。黄仁勋正在将超级计算带给群众,但群众却仿佛并不须要这样的物品。”
“他们在新芯片架构上投入了巨额资金,”《Acquired》这个硅谷盛行播客的独特掌管人Ben Gilbert说道。“他们花了数十亿指标瞄准学术和迷信计算的一个小众角落,而这个市场在过后并不大——远小于他们投入的资金。”
黄仁勋以为,CUDA的存在自身就会扩展超级计算的市场。但这一观念并未被宽泛接受,到2008年底,Nvidia的股价已上涨了70%……
CUDA的下载量在2009年到达峰值,随后三年继续降低。董事会担忧Nvidia因股价低迷会成为企业掠取者的指标。
创立CUDA平台时,黄仁勋并未特意思索到AI或神经网络。但是,预先证实,Hinton的反向流传算法可以轻松合成为小义务单元。因此,神经网络训练最终成了CUDA的“杀手级运行”。
依据Witt的说法,Hinton迅速看法到CUDA的后劲:
2009年,Hinton的钻研小组经常使用Nvidia的CUDA平台训练了一个神经网络来识别人类语音。他对结果的品质感到惊讶,并在当年的一个会议上展现了该成绩。随后他咨询了Nvidia。“我发了一封电子邮件,说‘我刚通知了上千名机器学习钻研人员他们应该去买Nvidia的显卡。能给我收费发一个吗?’”Hinton通知我。“他们说不行。”
虽然被拒绝,Hinton和他的钻研生Alex Krizhevsky及Ilya Sutskever取得了一对Nvidia GTX 580 GPU用于AlexNet名目。每块GPU都有512个口头单元,使得Krizhevsky和Sutskever能以比CPU快数百倍的速度训练神经网络。这一速度使得他们能够训练一个更大的模型,并对更多的训练图像启动训练。而他们须要一切这些额外的计算才干来解决庞大的ImageNet数据集。
李飞飞在2007年终添加普林斯顿大学担任计算机迷信传授时,并未关注神经网络或GPU。在加州理工学院攻读博士学位时期,她创立了名为Caltech 101的数据集,其中蕴含101个类别的9000张图片。
这段阅历让她看法到,计算机视觉算法在用更大、更多样的数据集训练时体现更佳。不只她自己的算法在经常使用Caltech 101训练时体现杰出,其余钻研人员也开局用她的数据集训练模型,并彼此比拟功能。这让Caltech 101成为了计算机视觉畛域的基准数据集。
因此,当她到来普林斯顿时,她选择将数据集做得更大。她对视觉迷信家Irving Biederman的预计深感兴味:个别人能识别约30,000种不同类型的物体。李飞飞开局思索能否可以构建一个真正片面的图像数据集——一个蕴含人们日常接触的一切物体的数据集。
一位普林斯顿的共事向她引见了WordNet,一个试图整顿和组织14万个词的大型数据库。李飞飞将她的新数据集命名为ImageNet,并用WordNet作为选用类别的终点。她去掉了动词和描画词以及像“真谛”这样的形象名词。最终,剩下的是一个蕴含22,000个可数物体的列表,从“救护车”到“西葫芦”不等。
她方案沿用在Caltech 101数据集中经常使用的战略:经常使用Google的图像搜查来寻觅候选图像,而后由人类启动验证。
她计划驳回与 Caltech 101 数据集相反的方法:应用 Google 的图片搜查觅到候选图片,而后由人工启动验证。在 Caltech 101 名目中,李飞飞亲身花了几个月成功了这一上班。这一次性,她须要更多的协助,方案雇佣几十位普林斯顿的本科生来协助挑选和标注图片。
即使在大幅优化了标注流程(例如,预先下载候选图片以便在校生可以立刻检查)后,李飞飞和她的钻研生邓嘉计算出,成功数百万张图片的挑选和标注仍需超越 18 年的时期。
这个名目因亚马逊 Mechanical Turk 平台而得以挽救。李飞飞了解到,亚马逊推出的众包平台 AMT 提供的国际休息力不只比普林斯顿的本科生愈加经济,而且平台更具灵敏性和扩展性。李的团队可以依据须要雇佣恣意多的人员,按上班量支付酬劳。
AMT 将成功 ImageNet 的时期从 18 年缩短到两年。李飞飞写道,他们的试验室花了两年“在资金的刀刃上挣扎”以成功 ImageNet 名目,但资金刚好足够支付三位人员检查最终数据集的每一张 1 万张图片。
2009 年,ImageNet 预备发布,李飞飞将其提交至当年在迈阿密举行的计算机视觉与形式识别会议。论文被接受了,但并未取得她希冀的关注。
“ImageNet 被纳入了海报展现,”李飞飞写道,“这意味着咱们不能在演讲厅外向观众展现,而是在会场中摆放一张大型海报,宿愿路人停上去并提出疑问……在阅历了这么多年的致力后,这显得有些反高潮。”
为了惹起群众关注,李飞飞将 ImageNet 打形成一个较量。她看法到,完整数据集或者过于庞大,无法散发给几十位参赛者,因此创立了一个小得多但依然庞大的数据集,蕴含 1000 个类别和 140 万张图片。
2010 年的初次较量吸引了 11 个团队参与。优胜作品基于支持向量机。但李飞飞写道,它“仅稍微优于该畛域的前沿成绩”。
第二年参与 ImageNet 较量的团队比第一年更少。2011 年的获胜作品再次是支持向量机,仅比 2010 年的优胜者略有改良。李飞飞开局疑心批判者能否正确。兴许“ImageNet 对大少数算法来说过于复杂”。
“延续两年中,久经考验的算法仅展现了才干的增量增长,而真正的停顿简直不存在,”李飞飞写道。“假设说 ImageNet 是一次性赌注,那么如今该开局疑心咱们能否曾经输了。”
但是,2012 年李飞飞勉强再次举行较量时,结果齐全不同。杰弗里·辛顿的团队率先提交了一个基于深度神经网络的模型,其 top-5 准确率到达了 85%,比 2011 年的获胜者高出 10 个百分点。
李飞飞最后的反响是难以置信:“咱们大少数人都以为神经网络是一件被玻璃罩和绒布绳包全起来的古董。”
ImageNet 的获胜者被布置在佛罗伦萨的欧洲计算机视觉会议上发布。李飞飞的家在加州,她方案列席会议,但当她看到 AlexNet 在数据集上的优秀体现时,看法到这一时辰过于关键,不容错过:“我最终选用了一段二十小时的睡眠无余且拥堵的旅程。”
在佛罗伦萨的一个十月的日子里,Alex Krizhevsky 向满座的计算机视觉钻研人员展现了他的成绩。李飞飞和杨立昆都在观众席中。
凯德·梅茨报道,演讲完毕后,杨立昆站起来称 AlexNet 为“计算机视觉史上无可争议的转机点。这就是证实。”
AlexNet 的成功验证了辛顿对神经网络的决计,但关于杨立昆来说,这无疑是更大的必需。
AlexNet 是一种卷积神经网络,这类网络由杨立昆在 20 年前开发,用于识别支票上的手写数字。AlexNet 的架构与 1990 年代杨立昆的图像识别网络简直没有太大差异。
惟一的区别在于 AlexNet 的规模更大。在 1998 年的论文中,杨立昆描画了一个领有七层和六万个可训练参数的文档识别网络。而 AlexNet 具备八层,其中蕴含了六千万个可训练参数。
1990 年代初期勒坤无法能训练这么大的模型,由于过后没有具备 2012 年 GPU 那样解决才干的计算机芯片。即使杨立昆搭建了一台足够大的超级计算机,他也不会有足够的图像来启动训练。搜集这些图像在 Google 和亚马逊 Mechanical Turk 发生之前会十分低廉。
这就是李飞飞在 ImageNet 上的上班为何如此关键的要素。她没有发明卷积网络,也没有钻研出如何在 GPU 上高效运转它们,但她提供了大型神经网络所需的训练数据,使其能够成功后劲。
科技界立刻看法到 AlexNet 的关键性。辛顿和他的在校生创立了一家壳公司,指标是被一家大公司“收买”。几个月内,谷歌以 4 万美元收买了这家公司。辛顿在谷歌上班了十年,同时保管了多伦多的学术职位。伊利亚·苏茨克弗在谷歌上班了几年后成为 OpenAI 的联结开创人。
AlexNet 还使得 Nvidia 的 GPU 成为训练神经网络的行业规范。2012 年,市场对 Nvidia 的估值无余 100 亿美元。如今,Nvidia 是环球最有价值的公司之一,市值超越 3 万亿美元。这一高估值关键由对 H100 等优化神经网络训练的 GPU 的庞大需求驱动。
“那一刻对 AI 环球具无心味意义,由于现代 AI 的三大基本要素初次融合,”李飞飞在九月的计算机历史博物馆访谈中说道。“第一个要素是神经网络。第二个要素是大数据,即 ImageNet 的经常使用。第三个要素是 GPU 计算。”
如今,上游的 AI 试验室以为推进 AI 提高的关键在于用少量数据集训练巨型模型。大型科技公司急于建造数据核心来训练更大的模型,以致于开局租赁整个核电站来提供所需的电力。
您可以将其视为 AlexNet 阅历经验的间接运行。但我想咱们兴许应该从 AlexNet 中得出相反的经验:过于依赖传统观念是一个失误。
在 AlexNet 之后的 12 年里,“Scaling laws”取得了清楚的成绩,兴许咱们将在未来几代看到更多令人印象深入的结果,由于上游的试验室继续扩展其基础模型。
但咱们应当小心,不要让 AlexNet 的经验固化成教条。我以为,在未来几年,“Scaling laws”或者会失效。假设那时到来,咱们将须要新一代固执的非传统主义者来发觉到旧方法不起作用并尝试新的方向。
原文:
想了解更多AIGC的内容,请访问:
AI.x社区
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/4070.html