五年替代狂卷的CNN!Transformer将统帅人工智能 变形金刚

  • 电脑网络维修
  • 2024-11-15

如今在AI业界众所周知的Transformer,终究是怎么在短短期间爆火的?

Transformer的来源

构想一下你逛左近的五金店,在货架上看到一种新型的锤子。它比其余锤子敲得更快、更准确,在过去几年里,它曾经淘汰了许多其余锤子,至少在大少数用途中是这样。而且经过一些调整——这里加个附件,那里加个扭矩——这个工具还能变成了一把锯子!它的切割速度和准确度不亚于任何同类产品。理想上,一些处于五金开发前沿的专家示意,这把锤子或许只是一切五金工具将融合到单个设施中的先兆。相似的故事正在AI业界中演出。那个「多配置的新锤子」是称为Transformer的人工神经网络,这是一种经过对现有数据启动训练来「学习」如何成功某些义务的节点网络。

最后,Transformer被用于言语处置,不过最近则影响到了更多的畛域。2017年,Transformer初次出如今谷歌钻研人员宣布的论文中,该论文标题是奥秘的「Attention Is All You Need」。之前其他人工智能的通用门路是,系统会首先关注输入数据部分的块,而后再去构建全体。例如,在言语模型中,临近的单词首先会被组合在一同。而Transformer的运转门路,则会让输入数据中的每个单元都相互咨询或获取关注,钻研人员将此称为「自留意力」。这象征着一旦开局训练,Transformer就可以看到整个数据集的处置轨迹。

论文链接:很快,Transformer就成为专一于剖析和预测文本的单词识别等运行程序的领头羊。它催生了一批新的AI工具,比如OpenAI的GPT-3,它可以训练数千亿个单词并继续生成语义可读的新文本,智能到令人不安。Transformer的成功让AI业界猎奇它还能成功其余哪些义务,而答案正在揭晓。在诸如图像分类的视觉义务中,经常使用Transformer的神经网络更快、更准确。而那些须要一次性性处置多种输入数据/方案义务的新兴义务也预示着,Transformer能口头的上班还可以更多。就在10年前,AI学界的不同子畛域之间简直没有共通言语。但Transformer的来到标明了融合的或许性。

德克萨斯大学奥斯汀分校的计算机迷信家Atlas Wang说:「我以为Transformer之所以如此受欢迎,是由于它暗含着全畛域通用的后劲。咱们有充沛的理由想要在整个AI迷信范围内尝试经常使用Transformer」。

从言语到视觉

在「Attention Is All You Need」论文颁布几个月后,扩展Transformer运行范围的最有出路的举措之一就开局了。事先在柏林的谷歌钻研部门上班的计算机迷信家Alexey Dosovitskiy,正在钻研计算机视觉,这是一个专一于教计算机如何处置和分类图像的AI子畛域。与该畛域的简直一切其他人一样,他事先的罕用工具是卷积神经网络(CNN),多年来,这种技术推进了深度学习、尤其是计算机视觉畛域的一切严重飞跃。CNN的上班原理是重复对图像中的像素经常使用滤波器,以建设对特色的识别。正是由于卷积配置,照片运行程序可以按脸孔组织图片库,或许将云与鳄梨区别开来。由此,CNN也成为了视觉义务处置中必无法少的工具。

Dosovitskiy正在钻研该畛域最大的应战之一,即扩展CNN的规模,以训练越来越高分辨率图像带来的越来越大的数据集,同时不增延处置期间。这时他留意到,Transformer在NLP义务中简直曾经齐全取代了此前一切的工具。那么,能否也能在视觉处置上做到相似成果呢?这个想法很有洞见。毕竟,假设Transformer可以处置单词的大数据集,为什么不能处置图片的呢?最终的结果是一个名为「视觉Transformer」或ViT的神经网络,钻研人员在2021年5月的一次性会议上展现了该网络。

论文链接:该模型的架构与2017年提出的第一个Transformer的架构简直相反,只启动了庞大的更改,使其能够剖析图像而非文字。ViT团队知道他们无法齐全模拟Transformer处置言语数据的方法,由于每个像素的自留意力要在模型运转中所有成功,将会极端耗时。相反,他们将较大的图像划分为正方形的单元,也就是所谓的词元(token)。词元大小是恣意的,由于可以依据原始图像的分辨率变大或变小(自动是每边16像素)。经过火单元处置像素,并对每个单元运行自留意力,ViT可以极速处置少量训练数据集,从而发生越来越准确的分类。

Transformer以超越90%的准确率对图像启动分类,这比Dosovitskiy预期的结果要好得多。在ImageNet分类应战赛这项业界标杆性图像识别较量中,ViT迅速取得榜首。ViT的成功标明,CNN或许不像很多钻研人员以为的那样,是计算机视觉的惟一基础。与Dosovitskiy协作开发ViT的Neil Houlsby说:「我以为CNN很或许在不久的未来被视觉Transformer或其衍生品所取代。」与此同时,其余的结果也允许了这个预测。在2022年终的测试中,ViT的降级版本仅次于将CNN与Transformer相联合的新方法。而之前的冠军CNN模型,如今勉强进入前10名。

Transformer是如何上班的?

ImageNet的结果标明,Transformer确实可以与CNN相抗衡。然而,谷歌的计算机迷信家Maithra Raghu想知道它们能否像CNN那样「看到」图像。虽然神经网络是一个臭名昭著的黑匣子,但有一些方法可以窥探其外部状况。比如。经过逐层审核网络的输入和输入,从而了解训练数据是如何流动的。

论文链接:关于CNN来说,它会一一像素地识别图像,经过从部分到全局的模式识别每一个角落或线条的特色。在自留意力的加持下,Transformer甚至可以在神经网络的第一层,就把散布在图像中间的消息建设咨询。假设说CNN的方法就像从一个像素开局加大,那么Transformer则是缓缓地将整个含糊的图像变得明晰。这种差异在言语畛域更容易了解。比如,猫头鹰发现了一只松鼠。它试图用爪子抓住它,但只抓到了它的尾巴末端。第二个句子的结构令人困惑。这些「它」指的是什么?一个只关注紧挨着「它」字的CNN会很吃力,但一个将每个字与其余字咨询起来的Transformer可以看出,猫头鹰做了抓取的举措,而松鼠则失去了部分尾巴。

融合正在出现

如今钻研人员宿愿将Transformer运行于一项更艰难的义务:生成新图像。就像GPT-3等言语工具可以依据其训练数据生成新文本一样。于是,在2021年宣布的一篇论文中,Wang联合了两个Transformer模型,试图对图像做雷同的事件。这是一个艰难得多的义务。

论文链接:当双Transformer网络在超越20万名人的面部图片上启动训练时,它以中等分辨率分解了新的面部图像。依据初始分数(一种评价神经网络生成图像的规范方法),Transformer生成的名人图片令人印象深入,并且至少与CNN生成的名人图片一样令人信服。

Transformer在生成图像方面的成功,比ViT在图像分类方面的才干更令人惊叹。雷同,在多模态处置方面,Transformer也有了一席之地。在以前孤立的方法中,每种类型的数据都有自己的专门模型。而多模态网络则可以让一个程序除了听声响外,还可以读取一团体的嘴唇。也就是可以同时处置多种类型数据的模型,如原始图像、视频和言语。「你可以领有丰盛的言语和图像消息示意数据,」Raghu说,「而且比以前更深化。」

新兴名目标明了Transformer在其余AI畛域的一系列新用途,包括教机器人识别人体静止、训练机器识别语音中的心情以及检测心电图表现的患者压力水平。另一个带有Transformer组件的程序是AlphaFold,2021年它因其极速预测蛋白质结构的才干而成为头条资讯——这项义务以前须要十年的期间深化剖析。

利害

即使Transformer可以有助于AI工具的融合和改良,新兴技术通常也会带来高昂的代价,Transformer也不例外。Transformer在预训练阶段须要更高的算力撑持,而后才干施展击败传统竞争对手的准确性。Wang示意,人们总会对高分辨率图像越来越有兴味。而由此带来的模型训练老本下跌,或许是Transformer宽泛铺开的一个毛病。不过,Raghu以为此类训练阻碍可以经过复杂的滤波器和其余工具轻松克制。

Wang还指出,虽然视觉Transformer曾经引发了推进AI行进开展的新名目——包括他自己的名目在内,但许多新模型依然蕴含了卷积配置的最精髓部分。这象征着未来的模型更有或许同时经常使用CNN与Transformer,而不是齐全丢弃CNN。而这预示了此类混合架构的迷人前景。或许,咱们不应该急于得出Transformer将成为最终模型的论断。不过可以必需的是,Transformer越来越有或许成为从业者常光临的AI五金店里任何一种新的超级工具的必备组件。

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/6793.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号