当前位置：首页 > 维修中心 > 电脑网络维修

LLMs vs RAG 谁主沉浮长高低文 #AIGC翻新先锋者征文大赛#

电脑网络维修
2024-11-15

 【本文正在介入 AI.x社区AIGC翻新先锋者征文大赛】 

作者 |Florian June

编译 |岳扬

2023 年，大言语模型（LLMs）的高低文窗口通常在 4K 到 8K 左右。但到了 2024 年 7 月，高低文窗口超越 128K 的 LLMs 曾经变得很广泛了。

以 Claude 2[1] 为例，其高低文窗口可达 100K。Gemini 1.5[2] 则宣称能够处置 2M 的高低文消息，而 LongRoPE[3] 更是将 LLMs 的高低文窗口扩展到了 200 万个 tokens 以上。Llama-3–8B-Instruct-Gradient-4194k[4] 的高低文窗口更是到达了 4194K 。在运行大言语模型时，高低文窗口的大小仿佛曾经不再是限度要素。

于是，有人提出了这样的观念：既然 LLMs 能够一次性性处置一切数据，那么还有必要建设检索增强生成（RAG）[5]系统吗？

因此，有一些钻研人员宣称“ RAG 已死”。但也有人以为，即使有了长高低文窗口的 LLMs， RAG 系统也不会因此沦亡，RAG 依然可以焕发新的生机。

本文将重点讨论这个幽默的话题：长高低文 LLMs 能否会造成检索增强生成（RAG）系统[5]的淘汰？

图 1：RAG vs Long-Context LLMs. Image by author.

文章扫尾，咱们将从直观的角度比拟 RAG 与具有长高低文窗口的大言语模型（LLMs）。接着，咱们将剖析几篇针对这一议题的最新学术论文。文章的最后，我将分享自己的一些思索和见地。

01 RAG 与长高低文 LLMs 的对比剖析

图 2 展现了 RAG 与具有长高低文窗口的 LLMs 在不同方面的直观对比。

图 2：RAG 与长高低文 LLMs 不同维度的对比剖析。

02 学术界最新钻研成绩

以上内容协助咱们建设一些直观的意识，并非对这些技术谨严的比拟。

长高低文 LLMs 的产生雷同惹起了学术界的关注。以下是最新的四篇钻研论文，咱们将一探求竟。

2.1 Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

该论文[6]提出了 LOFT 基准测试，这是一个模拟实在义务场景的测试环境， 须要处置上百万个 tokens 的高低文 ，用以评价长高低白话语模型（LCLMs）在消息检索和逻辑推理方面的才干。

LOFT 涵盖了六个关键义务场景 ，如图 3 上半局部所示，RAG 便是其中之一。

图 3：An overview of the LOFT benchmark. Source: Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?.[6]

图 3 的左下角展现的是传统的处置流程 ，其中包括多模态检索工具或 RAG pipeline，须要多个专业系统的协同上班。

与此相对的是， 图 3 的右下角展现的是长高低白话语模型（LCLM）。 LCLM 能够间接将蕴含文本、图像和音频等多种模态消息的整个语料库作为模型输入。经过驳回 “Context in Corpus”（CiC）提醒词技术，模型能够在一致的框架内成功包括检索、推理和答案生成在内的多种义务。

评价结果标明，在 multi-hop>总体来看，在 LOFT 基准测试中与 RAG 关系的义务中，Gemini 1.5 Pro（0.53）的体现略胜于 RAG pipeline（0.52）。而 GPT-4o（0.48）和 Claude 3 Opus（0.47）的体现则不如 RAG pipeline（0.52），这一结果在图 4 中有详细展现。

图 4 ：在 LOFT 128k 高低文的基准测试集上的关键试验结果。Source: Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?[6]

此外，图 5 显示， 虽然 LCLM 在 128K 高低文窗口的性能与 RAG 体现相当，但当高低文扩展到 1M 时，其性能相较于 RAG pipeline 有所降低。 这一趋向与 LCLM 在文本检索性能上的消退是分歧的。

图 5：LCLM 与各垂直场景模型在语料库大小从 32K 扩大至 100 万 tokens 时的性能对比。这些结果是在每个义务所蕴含的一切数据集上平均计算得出的。Source: Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?.[6]

2.2 RAG vs. Long Context: Examining Frontier Large Language Models for Environmental Review Document Comprehension

“RAG vs. Long Context”[7]钻研评价了 RAG 和长高低文 LLMs 在 那些须要专业畛域常识的特定义务场景中的体现。

经过构建 NEPAQuAD 1.0 基准测试，本钻研对三种先进的 LLMs —— Claude Sonnet、Gemini 和 GPT-4 —— 在回答美国联邦机构（U.S. federal agencies）依据《National Environmental Policy Act》（NEPA）编写的环境影响报告书（EIS）中关系疑问的才干启动了评价，详细请见图 6。

图 6：在比拟中经常使用的不同环境影响报告书（EIS）高低文的示例，其中精选的 Gold passages 由畛域专家挑选。Source: RAG vs. Long Context[7].

评价结果标明， 不论选用哪种前沿的 LLM，基于 RAG 的模型在答案准确性方面都清楚优于长高低文模型。

图 7：在不同高低文性能下，LLMs 在 EIS 文档上的答案正确性评价结果。其中，silver passages 是经过 RAG pipeline 挑选的，而 gold passages 则是由专家挑选的。Source: RAG vs. Long Context[7].

如图 7 所示， 当向 LLMs 提供 RAG pipeline 挑选出的 silver passages 时 ，其体现清楚优于不提供任何参考文献或提供含有疑问高低文的完整 PDF 文档。 其体现甚至凑近于提供专家挑选的 gold passages。

图 8 则展现了 LLMs 在不同类型疑问上的性能体现。

图 8：比拟不同言语模型在四种不同高低文运行场景下回答各类型疑问的正确性得分。Source: RAG vs. Long Context[7].

总体而言，RAG 增强的 LLMs（silver passages）在答案准确性上清楚优于仅提供长高低文的模型。特意是在处置特定垂直畛域的疑问时，RAG 增强的 LLMs（silver passages）具有清楚优点，其体现优于那些仅依托零样本常识（zero-shot knowledge）或完整 PDF 文档作为高低文的模型。

另外，在回答 敞开式疑问 时，带有高低文（silver passages 和 gold passages）的 LLMs 体现最为杰出；但是，在应答 发散性疑问 和 解题型疑问 时，它们的体现则相对较差。

2.3 Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach

本文[8]对 RAG 与长高低文 LLMs 启动了片面比拟，目的是发现并应用两者的短处。

钻研方法包括经常使用三种最新的 LLMs，在多个地下数据集上对 RAG 和长高低文 LLMs 启动基准测试。

钻研发现， 在资源短缺的状况下，长高低文 LLMs 的平均性能一直优于 RAG 。不过， RAG 的老本清楚更低 ，这依然是一个清楚的优点。

图 9 展现了经常使用 GPT-4o，GPT-3.5-Turbo 和 Gemini-1.5-Pro 这三种最新 LLMs 的长高低文LLMs、RAG 以及本论文提出的 SELF-ROUTE 方法的比拟结果。

图 9：虽然长高低文 LLMs（LC）在处置、了解长高低文方面胜过 RAG，但 RAG 在老本效益上具有清楚优点。Source: Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach.[8]

SELF-ROUTE 是一种联合了 RAG 和长高低文 LLMs 的一种简便而有效的方法，目的是在降低老本的同时，还能坚持与长高低文 LLMs 相媲美的性能。该方法应用 LLMs 的自我反思才干去路由 queries ，并假设 LLMs 能够准确预测现有高低文能否足以回答 queries。

该方法分为两个阶段： 首先是 RAG 及路由阶段，而后是长高低文预测阶段（long-context prediction step）。

在第一阶段 ，咱们向 LLMs 提供查问和检索到的文本块，并疏导它预测能否能够回答 query 。假设可以，LLMs 就会生成答案。这一环节与规范 RAG pipeline 相似，但有一个关键区别：LLMs 有权选用不回答，并在提醒词中注明“假设基于现有文本无法回答 query，请写‘无法回答’”。

关于那些判别为可以回答的 query ，咱们间接驳回 RAG 的预测结果作为最终答案。关于那些判别为无法以回答的 query ， 咱们则进入第二阶段 ，将完整的高低文提供应长高低文 LLMs 以取得最终的预测结果。关系的提醒词内容展如今图 10 中。

图 10：为每个数据集提供有相应的提醒词。Source: Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach.[8]

此外，该论文还启动了几项幽默的剖析。

首先，本论文讨论了在经常使用 top-k 方法检索到的文本块中 k 值如何影响检索结果。

图 11：随着 k 的参与，模型性能和实践经常使用的 token 百分比的变动曲线（a）和（b）。Source: Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach.[8]

图 11 展现了随着 k 的参与，模型性能和实践经常使用的 token 百分比的变动曲线（a）和（b）。

在性能方面，关于 RAG 和 SELF-ROUTE，k 值越大，性能越好。随着 k 的参与，更多文本块被输入到 LLMs 中，性能逐渐优化，逐渐凑近长高低文。

从变动曲线中可以看出，在 k 值较小时，SELF-ROUTE 的性能优点最为清楚，而当 k 超越 50 时，三种方法的性能体现趋于相反。

最优的 k 值或者因数据集而异。例如，平均而言，k=5 在曲线上显示的老本最低，但在某些数据集上，尤其是那些不须要 multi-hop 推理的提取式疑问数据集（如 NarrativeQA 和 QMSum ），k=1 的老本最低。这标明，最优的 k 值取决于义务的性质和性能要求。

该论文还经过手动审核 RAG-and-Route 步骤预测为“无法回答（unanswerable）”的示例，剖析了 RAG 系统失败的要素。它总结了四种典型的失败要素，如图 12 从 A 到 E 所示。

图 12：Prompt for the failure case analysis. Source: Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach.[8]

接上去，经常使用 Gemini-1.5-Pro 对提醒词启动处置，以识别一切无法回答的示例。

图 13 展现了 LongBench 中七个数据集中失败要素的散布状况。每个数据集或者蕴含不同数量的 RAG 失败案例，因此条形图的高度也会有所不同。

图 13：典型的 RAG 失败要素散布。Source: Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach.[8]

咱们观察到各技术在不同数据集下的性能体现：

2.4 ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

本钻研提出了一种名为 ChatQA 2 的新模型，该模型基于 Llama3，目的是增加开源大言语模型与顶级闭源大言语模型（如GPT-4-Turbo）在长高低文了解和 RAG 才干方面的差距。

此外，该钻研还经常使用最先进的长高低文 LLM 对 RAG 和长高低文处置打算启动了片面比拟。

如图 14 所示， 关于序列长度（sequence length）为 32K 的下游义务，长高低文处置打算在性能上优于 RAG。虽然经常使用 RAG 可以节俭老本，但或者会稍微降低准确率。

图 14：在最大输入为 32K tokens 的基准测试上，对 RAG 与长高低文启动评价比拟。Source: ChatQA 2[9]

如图 15 所示， 当高低文长度超越 100K 时，RAG 的性能优于长高低文处置打算。

图 15：在最大输入超越 100K tokens 的义务上，对 RAG 与长高低文启动评价。Source: ChatQA 2[9]

这标明，即使是最先进的长高低文 LLM ，也或者难以有效地理解和推理，在事实环球的 128K 义务中，其体现或者不迭 RAG 方法。因此，在这种状况下，可以思索经常使用 RAG 来提高准确率和降低推理老本。

03 My Thoughts and Insights

以下是我的一些思索和见地。

3.1 长高低文 LLMs 不会使 RAG 过期

从钻研论文中咱们可以看到，长高低文 LLMs 在许多方面都超越了 RAG，但在须要专业常识的细分畛域和老本方面，RAG 仍具有清楚优点。

RAG 或者会继续存在。超长 LLMs 高低文窗口很有协助，但处置每个恳求 200k 或 1M 个 tokens 的老本十分高，或者高达 20 美元[11]。

目前，我能想到的惟逐一种 RAG 或者会被长高低文 LLM 取代的状况是： 假设企业的运行场景相对便捷，而建设 RAG 系统的人力老本

关注微信

上一篇：RAG 长高低文 Google 还是我全都要！

下一篇：2024 ICML

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：https://duobeib.com/diannaowangluoweixiu/6022.html

猜你喜欢

鼎新热水器

奥克斯空调培修官方

萧山区空调培修

空调为什么暖风不出风

创维37L05HR液晶电视开机艰巨的疑问修缮

空调培修核心怎样不要钱

热门标签

洗手盆如何疏浚梗塞洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折明码箱怎样设置明码锁苏泊尔电饭锅保修多久长城画龙G8253YN彩电输入指令画面变暗疑问检修彩星彩电解除童锁方法大全三星笔记本培修点上海液晶显示器花屏培修视频燃气热水器不热水要素热水器不上班经常出现3种处置方法无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话大连站和大连北站哪个离周水子机场近热水器显示屏亮显示温度不加热铁猫牌保险箱高效开锁技巧科技助力安保无忧创维8R80 汽修 a1265和c3182是什么管为什么电热水器不能即热标致空调为什么不冷神舟培修笔记本培修 dell1420内存更新青岛自来水公司培修热线电话包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级创维42k08rd更新空调为什么运转异响热水器为何会漏水该如何处置什么是可以自己处置的重庆华帝售后电话波轮洗衣机荡涤价格鼎新热水器留意了！不是水平疑问！马桶产生了这5个现象方便极速邢台空调移机电话上门服务扬子空调缺点代码e4是什么疑问宏基4736zG可以装置W11吗奥克斯空调培修官方为什么突然空调滴水很多乐视s40air刷机包未联络视的提高方向官网培修格力空调售后电话皇明太阳能电话看尚X55液晶电视进入工厂形式和软件更新方法燃气热水器缺点代码

随便看看

TCP发送窗口接纳窗口以及其上班原理
1008

I 如何发现 PostgreSQL 和中那些消耗 CPU
1007

如何改良DevOps上班流
1005

安保无大事安保防范从Nginx性能做起程序员安保规范
1004

斯坦福学者提出Edu
1002

热门资讯

阅读排行

ChatGPT会取代搜查引擎吗
753

看国产库差距从Oracle的SQL治理才干
261

联想笔记本进入bios的三种方法联想笔记本怎么进入bios
4

微软CEO鲍尔默必应末尾不错将去路还很长
396

Windows10系统中gpedit.msc找不到怎么解决
3

关注我们

微信公众号微信公众号

LLMs vs RAG 谁主沉浮 长高低文 #AIGC翻新先锋者征文大赛#

01 RAG 与长高低文 LLMs 的对比剖析

02 学术界最新钻研成绩

2.1 Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?

2.2 RAG vs. Long Context: Examining Frontier Large Language Models for Environmental Review Document Comprehension

2.3 Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach

2.4 ChatQA 2: Bridging the Gap to Proprietary LLMs in Long Context and RAG Capabilities

03 My Thoughts and Insights

3.1 长高低文 LLMs 不会使 RAG 过期

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号

LLMs vs RAG 谁主沉浮长高低文 #AIGC翻新先锋者征文大赛#