如何经过紧缩揭示降落GPT

  • 电脑网络维修
  • 2024-11-15

假设经常使用切当,LLMLingua可以降落经常使用初级LLM的老本,并使更宽泛的用户和运行程序可以经常使用LLM。

像GPT-4和Claude这样的大型言语模型(LLM)可以经过良好的揭示工程学习新义务。但是,较长的揭示会参与经常使用这些模型的老本,并且还会减慢它们的运转速度。

LLMLingua是微软公司开发的一项新技术,经过消弭有关局部来紧缩揭示。值得留意的是,LLMLingua可以在不影响模型照应品质的状况下将揭示的规模紧缩高达20倍。假设经常使用切当,LLMLingua可以降落经常使用初级LLM的老本,并使更宽泛的用户和运行程序可以经常使用LLM。

揭示工程的老本

揭示工程是应用LLM启动实践运行的基石。诸如思想链、场景学习以及集成相关文档或历史对话等技术有助于增强特定义务的模型功能。但是,这些方法通常须要更长的揭示,有时或者到达数千个令牌。这或者会对经常使用初级模型的老本发生严重影响,尤其是像GPT-4这样老本高昂的LLM。

虽然有不同的方法来提升模型和降落老本,但一个钻研方向是应用人造言语固有的冗余来紧缩揭示。有些方法经过揭示调优来学习专门的令牌,以缩小推理时期所需的令牌数量。

但是,这些方法通常是特定于义务的,或者须要对整个模型启动微调,从而限度了它们的经常使用,并使它们与基于API的模型(例如ChatGPT)不兼容。

其余技术经常使用LLM来总结对话,以创立稀释的记忆和常识示意。但是,这些方法通常触及对LLM的屡次老本高昂的调用。

选用性场景是一种令人关注的方法,经常使用一个规模较小的言语模型来评价文本片段的消息量,摈弃消息较少的内容来紧缩揭示。微软公司的最新技术建设在这种方法的基础上,并对其启动了改良。

LLMLingua是一种翻新技术,它将揭示从粗粒度紧缩到细粒度级别。这种方法由几个局部组成。

第一个组成局部是“估算控制器”,它灵活地将不同的紧缩比调配给原始揭示的元素,例如指令、演示和疑问。基本准则是指令和疑问通常对生成的结果有更间接的影响,由于它们蕴含了LLM生成答案所需的基本常识。与其同样,当揭示蕴含多个演示时,消息或者是重复的。因此,估算控制器为指令和疑问调配更大的估算(象征着更小的紧缩比),同时为演示调配更小的估算。

LLMLingua经常使用较小的言语模型(如GPT-2或LLaMA)来治理这一调配。该模型计算每个演示的困惑度,作为文本与模型照应相关性的权衡规范。而后,LLMLingua优先思索具备最高困惑值的演示,将其归入揭示中,直到满足演示的令牌估算。剩下的估算用于完善指点和疑问。

LLMLingua的第二个组成局部是迭代令牌级揭示紧缩(ITPC)算法,它准许更细粒度的紧缩。迭代令牌级揭示紧缩(ITPC)首先对揭示启动分段,而后经常使用小模型确定这些分段之间的困惑度散布。接着,该算法结构一个紧缩揭示,该揭示保管具备高困惑度的令牌,经过思索令牌之间的条件依赖相关来确保保管关键消息。

第三个组成局部触及基于指令调优的方法,该方法同步大型和小型言语模型的散布形式。这个环节从一个预先训练好的小型言语模型开局,而后经常使用较大的LLM生成的数据对其启动微调。经过指令调优,小模型的行为与大模型的行为愈加分歧,增强了全体紧缩环节。

测试LLMLingua

在他们的试验中,钻研人员经常使用GPT-3.5 Turbo和Claude1.3作为重要LLM,并经常使用Alpaca-7B或GPT2-Alpaca成功紧缩义务。他们在各种基准测试中测试了LLMLingua,包括用于推理和场景学习的GSM8k和BBH,以及用于会话场景了解和摘要义务的ShareGPT和Arxiv-March23。

钻研人员在颁布的一份报告说:“在简直一切的试验中,咱们提出的方法一直以很大的长处优于先前的方法。”

在GSM8K和BBH的推理和场景学习基准测试中,LLMLingua不只取得了比全景(Full-shot)方法更高的结果,而且取得了5倍和3倍的清楚紧缩比。

钻研人员写道:“这很好地证实了咱们的紧缩揭示有效地保管了原始揭示中蕴含的推理消息。”

关于ShareGPT和Arxiv-March23上的场景了解基准,LLMLingua将揭示紧缩了9倍和3.3倍。这标明LLMLingua在紧缩初始揭示时保管了它们的语义完整性。此外,LLMLingua在准确性和紧缩水平上都优于其余揭示紧缩方法。在某些状况下,它在原始揭示符上成功了高达20倍的紧缩。

虽然触及多个步骤和两个模型的复杂性,LLMLingua设法成功了从1.7到5.7倍的减速,并且计算开支最小。

钻研人员总结说:“咱们的方法具备严重的实践意义,由于它不只降落了计算老本,而且为LLM中顺应更长的场景提供了一种潜在的处置打算。”

为了使LLMLingua获取更宽泛的驳回,微软公司经过一个易于经常使用的开源库提供了LLMLingua。开发人员可以经常使用这个库将LLMLingua集成到他们自己的运行程序中。

原文题目:Reduce the costs of GPT-4 with prompt compression,作者:Ben Dickson

链接:

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5978.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号