解读AI大模型 从了解token开局

  • 电脑网络维修
  • 2024-11-15

什么是Transformer?

Transformer是一种陈腐的神经网络架构,它在2017年由Google的钻研人员提出,用于处置机器翻译等人造言语处置的义务。Transformer的特点是,它齐全摒弃了传统的循环神经网络(RNN)和卷积神经网络(CNN),而是驳回了一种称为自留意力机制(Self-Attention)的方法,来捕捉文本中的长距离依赖相关,提高了模型的效率和准确性。

当天本文将围绕自留意力机制,引见Transformer 的三个关键概念,位置编码、留意力机制和自留意力机制。

位置编码(Positional Encodings)

在人造言语处置义务中,词语的顺序尤为关键。以“小明青睐小红”和“小红青睐小明”为例,这两句话的词语组成齐全一样,仅仅是顺序不同,所表白的意思却南辕北辙。因此,言语模型必定具有掌握词语顺序的才干。

但是,Transformer驳回的自留意力机制是经过单元之间的相关性来启动文本序列的编码,也就是说模型自身并不能感知词语的顺序消息。为了克制这个艰巨,Transformer引入了一种称为位置编码(Positional Encoding)的技巧。

位置编码的思绪很便捷,就是在输入序列中的每个词语前面追加一个位置标志,用不同的数字示意它在句子中的位置。以句子“我爱吃苹果”为例:

我 1 爱 2 吃 3 苹果 4

这样一来,Transformer模型就可以辨别词语的顺序了。这种方法极大地增强了模型处置人造言语的才干。理想上,位置编码使得Transformer可以类比人类大脑处置言语的方式——人脑可以轻松地记住词语出现的期间顺序。Transformer经过位置编码成功了相似的成果。

类比来说,当咱们看一篇长篇小说时,当咱们想搞分明外围境节的出现顺序时,咱们往往不是翻看原文,而是在阅读中就记载下一条期间线,当出现关键剧情时,将其记载在整个期间线的节点之上。之前大火的电影《信条》,置信很多小同伴也都是经过期间线的方式才真正搞分明剧情是如何开展的。

位置编码也好,期间线也罢,其实这局部消息原本就是隐式的存在原始数据之中。咱们的标志是将这局部隐式的结构数据显示的体现进去,使得大模型在编解码数据的环节中,把词语在句子中的相对位置归入出去,进而将这一局部消息嵌入到维度向量中(或许准确说对某些维度发生影响)。

这与人类大脑以期间顺序来认知事物或许组织言语的天性是相似的,而大模型的长处在于领有更大的存储,因此不须要似乎人类大脑普通须要启动关键节点的形象,只需对等的对每一个词语单元启动位置编码即可。(我在这里做了一点适度简化——最后的作者经常使用正弦函数来启动位置编码,而不是便捷的整数 1、2、3、4——但要点是相反的。)

留意力机制(Attention)

在Transformer模型中,位置编码为模型提供了词语顺序消息。而留意力机制则让模型能更自动地经常使用这些消息。

什么是留意力机制呢?便捷来说,它就是准许Transformer模型在生成输入时,参考输入序列中的一切词语,并判别哪些词对步骤更关键、更相关。以英译法翻译为例,当Transformer要翻译一个英文单词时,它会经过留意力机制极速“审视”整个英文输入序列,判别应该翻译成什么法文词语。假设输入序列中有多个相关词语,留意力机制会让模型关注最相关的那个,疏忽其它不太相关的词语。

标注翻译输入与输入关注度的热力求

从人类行为的角度来看,留意力机制就更容易了解了。当咱们阅读一段文字时,基于基因天性以及历史阅历,挑选重点关注的指标区域,获取留意力焦点的才干,从而应用有限的留意力资源从少量消息中极速挑选出低价值消息。大模型的留意力机制的构成就是相似的方式,类比大脑,大模型的天性与阅历则起源于词嵌入构成的词语向量亲密度。经过观察不可胜数的法语和英语句子,模型积攒了什么类型的单词是相互依赖的。

详细来说,Transformer中的留意力机制可以分为两步:

相比于RNN等早期序列模型逐渐处置输入、不可捕捉长距离依赖的方式,留意力机制成功了全局感知,使Transformer可以并行地看到所有输入,这极大地优化了其建模才干。正因如此,Transformer才可以胜任更难的言语了解义务。

自留意力机制(Self-Attention)

在Transformer模型中,除了留意力机制,还有一个愈加弱小的机制叫做自留意力(Self-Attention)。首先咱们说说留意力与自留意力的区别。

可以参考这个例子。比如说一条像蛇的井绳,会极速抓住人的眼球,让人提高警觉,这形容的是留意力。而经过这条井绳出如今水井边,并且一端系在水桶上,咱们判别它是一条井绳而不是蛇,则可类比为自留意力。

自留意力机制的外围理想是,准许模型学习词语之间的相关性,也就是词语与词语之间的依赖相关。以句子“我爱吃苹果”为例,经过自留意力,模型会学习到:

而后在处置时,模型会优先关注这些相关词语,而不是便捷依照顺序一个字一个字翻译。

人类对一个事物的认知不是仅在于事物自身,往往会联合事物所处的环境,并联合与认知事物相关的其余事物作为一个全体来构成最终的认知。自留意力机制在文本中的运行也一样,关键是经过计算单词间的相互影响,来处置长距离依赖疑问。

从认知角度来看,自留意力更贴近人类处置言语的方式。自留意力机制克制了传统序列模型在处置长距离依赖时的局限性。正因如此,自留意力机制成为Transformer模型的“引擎”,可以处置更复杂的言语结构,到达更高的功能。自留意力让Transformer不只可以并行计算,更可以建模非延续的依赖相关,这对处置言语意义至关关键。

总结

Transformer模型之所以能够在人造言语处置义务上取得渺小打破,关键在于其三大外围机制:

这三者相反相成,使得Transformer模型得以模拟人类言语处置的方式,到达了传统RNN模型难以企及的成果。

未来,如何使Transformer模型更易于训练,并能够真歪了解言语的深层语义,而不只是外表方式,仍将是人造言语处置畛域的外围应战。

本文转载自​​,作者:

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/6124.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号