优化20倍!DeepMind颁布ReadAgent框架 有效高低文

  • 电脑网络维修
  • 2024-11-15

基于Transformer的大言语模型(LLM)具备很强的言语了解才干,但LLM一次性能够读取的文本量依然遭到极大限度。

除了高低文窗口较小外,LLM的性能会随着输入内容长度的参与而降低,即使输入内容未超越模型的高低文窗口长度限度也是如此。

相比之下,人类却可以阅读、了解和推理很长的文本。

LLM和人类在阅读长度上存在差异的重要要素在于阅读方法:LLM逐字地输入准确的内容,并且该环节相对主动;但过于准确的消息往往会被忘记,而阅读环节更器重了解含糊的要点消息,即不思考准确单词的内容能记忆更长期间。

人类阅读也是一个互动的环节,比如回答疑问时还须要从原文中启动检索。

为了处置这些限度,来自Google DeepMind和Google Research的钻研人员提出了一个全新的LLM系统ReadAgent,受人类如何交互式阅读长文档的启示,将有效高低文长度参与了20倍。

论文链接:​ ​​ ​

受人类交互式阅读长文档的启示,钻研人员将ReadAgent成功为一个便捷的提示系统,经常使用LLMs的初级言语配置:

1. 选择将哪些内容存储在记忆片段(memory episode)中;

2. 将记忆片段紧缩成称为要点记忆的冗长片段记忆,

3. 假设ReadAgent须要提示自己成功义务的关系细节,则采取执行(action)来查找原始文本中的段落。

在试验评价中,相比检索、原始长高低文、要点记忆(gist memories)方法,ReadAgent在三个长文档阅读了解义务(QuALITY,NarrativeQA和QMSum)上的性能体现都优于基线,同时将有效高低文窗口裁减了3-20倍。

ReadAgent框架

1. 要点记忆(gist memory)

要点记忆是原始长高低文中文本块的短要点的有序汇合,构建gist记忆有两个步骤:分页(pagination)和记忆提要(memory gisting)。

片段分页(episode pagination)

当ReadAgent阅读长文本时,经过选择暂停阅读的位置来选择在记忆片段中存储哪些内容。

每一步都会为LLM提供局部文本,从上一个暂停点开局,并在到达最大单词数限度时完结;提示LLM选择段落之间的哪个点将是人造的暂停点,而后将前一个和暂停点之间的内容视为一个episode,也可以叫做页(page)。

记忆提要(memory gisting)

关于每一页,提示LLM将确切的内容缩短为要点或摘要。

2. 并行和顺序交互查找

因为要点记忆与页关系,所以只有提示LLM来找出哪一页更像是答案,并在给定特定义务的状况下再次阅读,重要有两种查找战略:同时并行查找一切页面(ReadAgent-P)和每次查找一个页面(ReadAgent-S)。

ReadAgent-P

比如说,在问答义务中,理论会给LLM输入一个可以查找的最大页数,但也会批示其经常使用尽或许少的页面,以防止不用要的计算开支和搅扰消息(distracting information)。

ReadAgent-S

顺序查找战略中,模型一次性恳求一页,在选择倒退(expand)哪个页面之前,先检查之前倒退过的页面,从而使模型能够访问比并行查找更多的消息,预期在某些不凡状况下体现得更好。

但与模型的交互次数越多,其计算老本也越高。

3. 计算开支和可裁减性

片段分页、记忆提要和交互式查找须要迭代推理,也存在潜在的计算开支,但详细开支由一个小因子线性解放,使得该方法的计算开支不会输入长度的参与而猛烈优化。

因为查找和照应大多是条件要点(conditioned gists)而非全文,所以在同一高低文中的义务越多,老本也就越低。

4. ReadAgent变体

当经常使用长文本时,用户或许会提早知道要处置的义务:在这种状况下,提要步骤可以在提示中包括义务形容,使得LLM可以更好地紧缩与义务有关的消息,从而提高效率并缩小搅扰消息,即条件ReadAgent

更通用的义务设置下,在预备提要时或许不知道详细义务,或许或许知道提出的要点须要用于多个不同的义务,例如回答关于文本的疑问等。

因此,经过扫除注册步骤中的义务,LLM可以发生更宽泛有用的提要,代价是缩小紧缩和参与搅扰留意力的消息,即非条件ReadAgent。

这篇论文中只讨论了无条件设置,但在某些状况下,条件设置或许更有长处。

迭代提要(iterative gisting)

关于一段很长的事情历史,例如对话等,可以思考经过迭代提要来进一步紧缩旧记忆来成功更长的高低文,对应于人类的话,旧记忆更含糊。

试验结果

钻研人员评价了ReadAgent在三个长高低文问容许战中的长文档阅读了解才干:QuALITY、NarrativeQA和QMSum。

只管ReadAgent不须要训练,但钻研人员依然选择在训练集上开发了一个模型并在验证、测试和/或开发集上启动了测试,以防止过拟合系统超参数的危险。

选择的模型为指令微调后的PaLM 2-L模型。

评价目的为紧缩率(compression rate, CR),计算方法如下:

LLM评分器

NarrativeQA和QMSum都有一个或多个自在方式的参考回复,理论经常使用诸如ROUGE-F之类的语法婚配度量来评价。

除此之外,钻研人员经常使用智能LLM评分器来评价这些数据集,作为人工评价的代替方法。

下面两个提示中,「严厉LLM评分器提示」用于判别能否存在准确婚配,「容许LLM评分器提示」用于判别能否存在准确婚配或局部婚配。

基于此,钻研人员提出了两个评价目的:LLM-Rating-1(LR-1)是一个严厉的评价分数,计算一切示例中准确婚配的百分比;LLM-Rating-2(LR-2)计算准确婚配和局部婚配的百分比。

长高低文阅读了解

试验结果显示,ReadAgent(查找1-5页)成功了最好的结果,紧缩率为66.97%(即提要后高低文窗口中可以容纳3倍的token)。

当参与准许查找的最大页数(最多5页)时,性能会始终提高;在6页时,性能开局略有降低,即6页高低文或许会参与搅扰消息。

NarrativeQA

在三个阅读了解数据集中,NarrativeQA的平均高低文长度最长,为了将gists放入高低文窗口,须要裁减页面的尺寸大小。

提要对Gutenburg文本(书籍)的紧缩率为96.80%,对电影剧本的紧缩率为91.98%

QMSum由各种主题的会议记载以及关系疑问或说明组成,长度从1,000字到26,300字不等,平均长度约为10,000字,其答案是自在方式的文本,规范的评价目的是ROUGE-F

可以看到性能随着紧缩率的降低而提高,因此查找更多页面的技术往往比查找更少页面的技术做得更好。

还可以看到ReadAgentS大大优于ReadAgent-P(以及一切基线),性能改良的代价是检索阶段的恳求数量参与了六倍。

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/6026.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号