Transformer动画解说

电脑网络维修
2024-11-15

一、GPT的外围是Transformer

GPT（Generative Pre-trained Transformer） 是一种基于单向Transformer解码器的预训练言语模型，它经过在大规模语料库上的无监视学习来捕捉言语的统计法令，从而具有弱小的文本生成才干。

在GPT（Generative Pre-trained Transformer）模型中，字母G、P、T各自有其特定的含意：

GPT的外围是Transformer

Transformer模型在多模态数据解决中雷同表演着关键角色 ，其能够高效、准确地解决蕴含不同类型（如图像、文本、音频、视频等）的多模态数据。

Transformer的多模态

二、Transformer的上班原理

Transformer上班原理四部曲： Embedding（向量化）、Attention（留意力机制）、MLPs（多层感知机）和Unembedding（模型输入）。

Embedding -> Attention -> MLPs -> Unembedding

阶段一：Embedding（向量化）

“Embedding”在字面上的翻译是“嵌入”，但在机器学习和人造言语解决的高低文中，咱们更偏差于将其了解为一种“向量化”或“向量示意”的技术。

（1）Tokenization（词元化）：

Tokenization

（2）Embedding（向量化）：

Tokens转换为向量

向量语义相似度

阶段二：Attention（留意力机制）

Attention模块协助嵌入向量构成相关性，即确定它们如何相互关联以构建出无心义的句子或段落。

留意力计算公式

（1）Attention的目标：

降级嵌入向量

建设语义相关性

（2）Attention的上班流程（留意力计算Q、K、V）：

留意力计算Q、K、V

阶段三：MLPs（多层感知机或前馈网络）

Transformer的编码器和解码器中的每一层都蕴含一个全衔接的前馈神经网络。FFNN理论蕴含两个线性变换，两边经常使用ReLU激活函数启动非线性解决。

（1）MLPs在Transformer中的

MLPs在Transformer中的位置

（2）MLPs在Transformer中的作用：

MLPs在Transformer中的作用

阶段四：Unembedding（模型输入）

Transformers经过Softmax在生成输入时， 将原始留意力分数转换为输入标志的概率散布。这种概率散布将较高的留意力权重调配给更相关的标志，并将较低的权重调配给不太相关的标志。

（1）Softmax在Transformer的

Softmax在Transformer的位置

（2）Softmax在Transformer的作用：

Softmax在Transformer中的作用

原文链接：

关注微信

上一篇：这个新模型才干很弱小编程体现比肩ChatGPT

下一篇：一文彻底搞懂论文

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：http://www.duobeib.com/diannaowangluoweixiu/5555.html

Transformer动画解说

一、GPT的外围是Transformer

二、Transformer的上班原理

阶段一：Embedding（向量化）

阶段二：Attention（留意力机制）

阶段三：MLPs（多层感知机或前馈网络）

阶段四：Unembedding（模型输入）

猜你喜欢

热门标签

随便看看

TCP发送窗口接纳窗口以及其上班原理

I 如何发现 PostgreSQL 和中那些消耗 CPU

如何改良DevOps上班流

安保无大事安保防范从Nginx性能做起程序员安保规范

斯坦福学者提出Edu

热门资讯

阅读排行

微软CEO鲍尔默上前 2011年十大预测

KubeSphere的高光时辰来了多集群控制之后

陈林的团体主页

二哥逆袭 CPU大变局假相苹果搅局

ChatGPT可以取代搜查引擎吗

关注我们

Transformer动画解说

一、GPT的外围是Transformer

二、Transformer的上班原理

阶段一：Embedding（向量化）

阶段二：Attention（留意力机制）

阶段三：MLPs（多层感知机或前馈网络）

阶段四：Unembedding（模型输入）

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号