斯坦福大学钻研团队破解小规模语料库常识失掉难题 提出翻新的分解继续预训练方法

  • 电脑网络维修
  • 2024-11-15

引言:探求小规模语料库中的常识失掉

在现代的人造言语处置畛域,大规模预训练模型曾经显示出了在各种常识密集型义务中的出色功能。这些模型理论依赖于少量的、结构化不强的互联网文本数据启动训练,从而失掉丰盛的环球常识。但是,这种常识失掉模式存在一个清楚的疑问:数据效率低下。为了学习特定的理想,模型必定在成千盈百的不同表述中启动训练,这在面对小规模、特定畛域的语料库时尤为突出,由于在这些语料库中,每个理想或者很少产生或仅产生一次性。

为了处置这一疑问,本文提出了一种新的方法——分解继续预训练(synthetic continued pretraining)。这种方法首先应用小规模的特定畛域语料库分解一个更易于学习的大规模语料库,而后在此分解语料库上继续启动预训练。经过这种模式,模型能够在没有访问源文档的状况下回答疑问和遵照与源文档相关的指令。

本钻研的外围奉献包括提出了一种新的从小规模语料库中失掉常识的方法,并经过试验验证了该方法的有效性。此外,本文还构建了一个便捷的数学模型来剖析分解数据增强算法,并展现了如何经过火解数据增强来“从新陈列”常识,以成功更高效的学习。

论文题目 : Synthetic Continued Pretraining

机构 : Stanford University

论文链接 :​ ​​ ​

钻研背景与动机

在人造言语处置畛域,大规模预训练模型曾经显示出了在失掉环球常识方面的清楚才干,这使得它们能够口头常识密集型义务。但是,这种常识失掉环节是数据低效的,模型须要在成千盈百的不同表白中学习到特定的理想。这在顺应特定畛域的小规模文档集时尤为应战,由于在这些文档中,某些理想或者很少产生或只产生一次性。

为了处置从小规模语料库中失掉常识的疑问,咱们提出了一种经常使用分解数据继续预训练的方法。这种方法首先经常使用小规模的畛域特定语料库来分解一个更适宜学习的大规模语料库,而后在这个分解的语料库上启动继续预训练。这种方法的外围在于,经过火解数据增强算法来参与数据的多样性,从而提高模型的数据效率和学习才干。

方法引见:EntiGraph分解数据增强算法

1. 算法概述

EntiGraph是一种基于实体的数据增强算法,它经过剖析文档中的实体及其相关来分解新的文本数据。该算法首先从源文档中提取关键实体,而后应用言语模型生成关于这些实体之间相关的文本形容,经过这种模式迭代地填充常识图谱。

2. 实体提取

EntiGraph首先对文档启动实体提取,识别出文档中的关键实体,如人名、地点、概念等。这一步是经过向预训练的言语模型输入文档并恳求它标识出文档中的重要实体来成功的。

3. 实体形容生成

关于每个提取出的实体,EntiGraph经常使用言语模型生成该实体在文档高低文中的详细形容。这包括实体的定义、它在文档中的作用以及与其余实体的相关等。

4. 相关剖析

在实体形容生成之后,EntiGraph进一步剖析不同实体之间的相关。算法会探务实体对或实体组合之间的潜在咨询,并生成形容这些相关的文本。这一步骤协助模型了解和学习实体之间复杂的相互作用和依赖。

经过这三个步骤,EntiGraph能够从一个小规模的、消息密度高的语料库中生成一个大规模的、消息丰盛且多样化的分解语料库,为言语模型的继续预训练提供了更丰盛的训练资料。这种方法不只增强了模型对特定畛域常识的了解,还提高了模型在面对新畛域或少见理想时的顺应才干和体现。

试验设置

在本钻研中,咱们提出了一种名为“分解继续预训练”(synthetic continued pretraining)的方法,旨在经过火解数据增强来提高言语模型从小规模语料库中学习的效率。咱们经常使用了一个名为EntiGraph的数据增强算法,该算法经过剖析和分解文档中的实体相关来生成新的文本数据。

试验设计与评价方法

咱们的试验基于规范的阅读了解数据集(QuALITY, Pang et al. (2022))。在这个设置中,咱们首先从一个蕴含265本书籍的小规模语料库(总共1.3M个token)中,经常使用EntiGraph生成了600M个分解token。接着,咱们在这些分解token上继续预训练一个名为Llama 3 8B的言语模型,并在QuALITY疑问集上评价模型的问答准确性。

数据增强算法:EntiGraph

EntiGraph算法首先从源文档中提取关键实体,而后应用言语模型生成关于这些实体的文本形容,以及这些实体之间的相关形容。这一环节包括三个步骤:

经过这种方法,咱们能够从一个高度稀释的常识示意中生成一个大规模、多样化的分解语料库,为模型提供更丰盛的学习资料。

重要试验结果与剖析

问答准确性评价

在经常使用EntiGraph生成的600M分解token启动预训练后,咱们观察到模型在QuALITY疑问集上的体现清楚优化。详细来说,模型的问答准确率从基线模型的39.49%提高到56.42%。这一结果标明,分解继续预训练能够有效地提高模型处置特定畛域疑问的才干。

与基线模型的比拟

咱们还将EntiGraph预训练模型与两个基线模型启动了比拟:

结果显示,EntiGraph预训练模型在问答义务上的体现清楚优于这两个基线模型,特意是与重述语料预训练模型相比,EntiGraph模型展现了更好的常识失掉和运行才干。

数据增强的影响

经过对比不同数量的分解token对模型功能的影响,咱们发现模型的准确率与经常使用的分解token数量呈对数线性相关。这一发现允许了咱们的假定:经过参与分解数据的多样性和数量,可以有效地优化模型的学习效率和最终功能。

综上所述,分解继续预训练和EntiGraph数据增强算法在提高言语模型从小规模、专业畛域语料库中学习的效率方面显示出了清楚的后劲。这些结果为未来在更宽泛的运行中经常使用分解数据生成技术提供了有价值的见地和证据。

总结

本钻研提出了一种陈腐的分解继续预训练方法,经过EntiGraph算法生成高品质的分解数据,有效地允许了小规模语料库上的常识学习。试验结果标明,该方法能够清楚提高模型在特定畛域的体现,尤其是在闭书问答和指令遵照义务上。此外,咱们还讨论了分解数据的多样性和品质、模型的泛化才干以及计算效率和可裁减性等未来的钻研方向。

经过火解继续预训练,咱们不只提高了模型在特定畛域的体现,还为未来在数据受限环境下的模型训练提供了新的思绪和方法。宿愿未来的钻研能够在此基础上,进一步探求和优化分解数据生成和模型预训练的方法,以应答更宽泛的运行场景和应战。

本文转载自​​,作者:

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5545.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号