一文彻底搞懂论文

  • 电脑网络维修
  • 2024-11-15

GPT-2是一个大规模无监视言语模型,它可以生成连接的文本段落,在许多言语建模基准上成功最先进的功能,并口头基本的阅读了解、机器翻译、问答和总结——一切这些都不须要针对特定义务的训练。

GPT-2 是 GPT-1 的间接裁减,其参数是 GPT-1 的 10 倍以上,并且在超越 10 倍的数据量上启动训练。GPT-2的 训练目的很便捷,就是 预测 40GB 互联网文本中的下一个单词。

接上去分为四局部:摘要、引言、模型、试验,一同来精读论文:GPT-2: Language Models are Unsupervised Multitask Learners(言语模型是无监视多义务学习者)

GPT-2:言语模型是无监视多义务学习者

一、摘要

如何应答BERT超越GPT-1? 自从BERT模型由Google提出并逾越GPT-1后,OpenAI须要新的战略来还击。 GPT-2不只放大了模型和数据量 ,还引入了 zero-shot设定 ,这象征着在下游义务中 无需标签消息或从新训练模型 ,展现了其在更难设定下的新意。

GPT-1的开局符[Start],分隔符[Delim],抽取符[Extract],GPT-2统统不须要了。-- 架构师带你玩转AI

GPT-2引入了zero-shot设定,就是在做下游义务是,不须要下游义务的任何标签消息,也不须要从新训练一个模型,即在更难的一个设定上表现他的一个新意度。

GPT-2亮点一: 更大数据集(百万级网页WebText)人造言语处置义务,如问答、机器翻译、阅读了解以及摘要生成等,理论是经过在特定义务的数据集上启动监视学习来处置的。咱们证实,当在一个名为WebText的蕴含数百万个网页的新数据集上启动训练时,言语模型开局在没有任何明白监视的状况下学习这些义务。

GPT-2亮点二: zero-shot +更大模型参数(15亿参数)咱们最大的GPT-2模型是一个领有15亿参数的Transformer,它在8个测试的言语建模数据集中的7个上,在零样本设置下到达了最先进的结果,但依然未能充沛拟合WebText数据集。

二、引言

传统机器学习系统训练模式是什么? 创立机器学习系统的干流方法是 搜集一个蕴含正确行为示例的训练数据集所需义务训练一个系统来模拟这些行为 ,而后在独立且同散布的保管示例上测试其功能。

这种方法在 造就狭义专家方面 取得了很好的停顿。但是在应答多样化和多变的输入时(阅读了解系统)表现出的往往是不稳固的行为。

多义务学习是什么? 多义务学习是一种训练模型的方法,旨在经过同时处置多个数据集和驳回多个损失函数,使一个模型能够在多个义务上均表现杰出。

在人造言语处置(NLP)畛域,重要驳回的是预训练+微调的模式。 当运行预训练模型到详细的下游义务时,理论须要依据该义务的特点对模型启动微调,而微调模型理论须要少量的有标注数据。

zero-shot的设定是什么? 不须要下游义务的标注消息,不引入模型没有见过的不凡符号( 开局符[Start],分隔符[Delim],抽取符[Extract] )。

GPT-2驳回了不同的战略。它重要关注于言语模型的训练,并在下游义务中驳回zero-shot的设定。这种设定下, GPT-2不须要下游义务的标注消息,也不引入模型没有见过的不凡符号。

​狭义的专家 or才干片面的通才? 的系统更适宜被形容为狭义的专家,而非才干片面的通才。咱们宿愿能够朝着构建能够口头多项义务的系统迈进——最终无需为每个义务手动创立和标注训练数据集。

机器学习系统如今在联合大型数据集、高容量模型和监视学习的条件下,关于它们所训练的义务表现杰出。但是,这些系统很软弱,对数据散布和义务规范的庞大变动都很敏感。

GPT-2有更庞大的指标, 争当才干片面的通才 ,只管AGI很悠远,但幻想还是要有的,一个开箱即用,能够口头多义务的GPT, 始终退化,朝着指标行进 -- 架构师带你玩转AI​

三、模型

GPT-2模型是什么?该模型在很大水平上遵照了OpenAI GPT-1模型的细节,但做了一些修正。咱们将层归一化移动到了每个子块的输入处,相似于预激活残差网络,并在最后的自留意力块之后减少了一个额外的层归一化。

GPT-1和GPT-2的区别是什么?GPT-1和GPT-2在处置下游义务时的输入模式 有所不同。

GPT-1须要引入额外的符号(开局符、分隔符、完结符)来标识输入的不同局部,并经过微调来学习如何处置这些符号。而GPT-2则驳回了更为繁复的zero-shot设定,间接经常使用与预训练阶段相反的输入格局 ,从而简化了义务处置的流程。

GPT-2的训练范式是什么?GPT-2驳回预训练+zero-shot的训练范式。为成功zero-shot,GPT2在做下游义务时,输入就不能像GPT-1那样在结构输入时参与开局、两边和完结的不凡字符,由于这些不凡字符是模型在预训练时没有见过的。正确的输入应该和预训练模型看到的文本一样,更像一团体造言语。

比如在做机器翻译时,间接可以输入“请将上方一段英文翻译成法语,英文文本”,由于在训练时或者曾经存在很多这样的翻译文本样例,因此模型就可以成功输入一段法语。

是不是觉得很相熟,没错,Zero-Shot就是Prompt的前身, 只管大家如今曾经很习气经过Prompt跟LLM模型启动交互,但是过后提出这个概念还是十分具备前瞻性。 -- 架构师带你玩转AI

四、试验

零样转义务迁徙经常使用什么数据集? WebText,蕴含4500w个链接的文本消息,总计800w的文本和40GB的文字。

这是一个 蕴含少量网页文本的数据集,理论用于人造言语处置(NLP)畛域的模型训练和评价。例如,OpenWebText是一个开源的Web文本数据集,旨在复现和提供Giant OCR'd Web Text(即WebText)数据集,宽泛用于预训练言语模型如GPT-2等。

模型的规格有多大? GPT2也是基于Transformer解码器的架构,作者设计了4种大小的模型。 GPT-2模型的四个版本(Small、Medium、Large、XL)区分具备约1.17亿、3.45亿、7.62亿和15亿参数,

参考资料

原文链接:​ ​​ ​​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:http://www.duobeib.com/diannaowangluoweixiu/5556.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号