【本文正在介入 AI.x社区AIGC翻新先锋者征文大赛】
作者 |Florian June
编译 |岳扬
2023 年,大言语模型(LLMs)的高低文窗口通常在 4K 到 8K 左右。但到了 2024 年 7 月,高低文窗口超越 128K 的 LLMs 曾经变得很广泛了。
以 Claude 2[1] 为例,其高低文窗口可达 100K。Gemini 1.5[2] 则宣称能够处置 2M 的高低文消息,而 LongRoPE[3] 更是将 LLMs 的高低文窗口扩展到了 200 万个 tokens 以上。Llama-3–8B-Instruct-Gradient-4194k[4] 的高低文窗口更是到达了 4194K 。在运行大言语模型时,高低文窗口的大小仿佛曾经不再是限度要素。
于是,有人提出了这样的观念:既然 LLMs 能够一次性性处置一切数据,那么还有必要建设检索增强生成(RAG)[5]系统吗?
因此,有一些钻研人员宣称“ RAG 已死”。但也有人以为,即使有了长高低文窗口的 LLMs, RAG 系统也不会因此沦亡,RAG 依然可以焕发新的生机。
本文将重点讨论这个幽默的话题:长高低文 LLMs 能否会造成检索增强生成(RAG)系统[5]的淘汰?
图 1:RAG vs Long-Context LLMs. Image by author.
文章扫尾,咱们将从直观的角度比拟 RAG 与具有长高低文窗口的大言语模型(LLMs)。接着,咱们将剖析几篇针对这一议题的最新学术论文。文章的最后,我将分享自己的一些思索和见地。
图 2 展现了 RAG 与具有长高低文窗口的 LLMs 在不同方面的直观对比。
图 2:RAG 与长高低文 LLMs 不同维度的对比剖析。
以上内容协助咱们建设一些直观的意识,并非对这些技术谨严的比拟。
长高低文 LLMs 的产生雷同惹起了学术界的关注。以下是最新的四篇钻研论文,咱们将一探求竟。
该论文[6]提出了 LOFT 基准测试,这是一个模拟实在义务场景的测试环境, 须要处置上百万个 tokens 的高低文 ,用以评价长高低白话语模型(LCLMs)在消息检索和逻辑推理方面的才干。
LOFT 涵盖了六个关键义务场景 ,如图 3 上半局部所示,RAG 便是其中之一。
图 3:An overview of the LOFT benchmark. Source: Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?.[6]
图 3 的左下角展现的是传统的处置流程 ,其中包括多模态检索工具或 RAG pipeline,须要多个专业系统的协同上班。
与此相对的是, 图 3 的右下角展现的是长高低白话语模型(LCLM)。 LCLM 能够间接将蕴含文本、图像和音频等多种模态消息的整个语料库作为模型输入。经过驳回 “Context in Corpus”(CiC)提醒词技术,模型能够在一致的框架内成功包括检索、推理和答案生成在内的多种义务。
评价结果标明, 在 multi-hop>总体来看,在 LOFT 基准测试中与 RAG 关系的义务中,Gemini 1.5 Pro(0.53) 的体现略胜于 RAG pipeline(0.52)。而 GPT-4o(0.48)和 Claude 3 Opus(0.47)的体现则不如 RAG pipeline(0.52),这一结果在图 4 中有详细展现。
图 4 :在 LOFT 128k 高低文的基准测试集上的关键试验结果。Source: Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?[6]
此外,图 5 显示, 虽然 LCLM 在 128K 高低文窗口的性能与 RAG 体现相当,但当高低文扩展到 1M 时,其性能相较于 RAG pipeline 有所降低。 这一趋向与 LCLM 在文本检索性能上的消退是分歧的。
图 5:LCLM 与各垂直场景模型在语料库大小从 32K 扩大至 100 万 tokens 时的性能对比。这些结果是在每个义务所蕴含的一切数据集上平均计算得出的。Source: Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?.[6]
“RAG vs. Long Context”[7]钻研评价了 RAG 和长高低文 LLMs 在 那些须要专业畛域常识的特定义务场景中的体现。
经过构建 NEPAQuAD 1.0 基准测试,本钻研对三种先进的 LLMs —— Claude Sonnet、Gemini 和 GPT-4 —— 在回答美国联邦机构(U.S. federal agencies)依据《National Environmental Policy Act》(NEPA)编写的环境影响报告书(EIS)中关系疑问的才干启动了评价,详细请见图 6。
图 6:在比拟中经常使用的不同环境影响报告书(EIS)高低文的示例,其中精选的 Gold passages 由畛域专家挑选。Source: RAG vs. Long Context[7].
评价结果标明, 不论选用哪种前沿的 LLM,基于 RAG 的模型在答案准确性方面都清楚优于长高低文模型。
图 7:在不同高低文性能下,LLMs 在 EIS 文档上的答案正确性评价结果。其中,silver passages 是经过 RAG pipeline 挑选的,而 gold passages 则是由专家挑选的。Source: RAG vs. Long Context[7].
如图 7 所示, 当向 LLMs 提供 RAG pipeline 挑选出的 silver passages 时 ,其体现清楚优于不提供任何参考文献或提供含有疑问高低文的完整 PDF 文档。 其体现甚至凑近于提供专家挑选的 gold passages。
图 8 则展现了 LLMs 在不同类型疑问上的性能体现。
图 8:比拟不同言语模型在四种不同高低文运行场景下回答各类型疑问的正确性得分。Source: RAG vs. Long Context[7].
总体而言,RAG 增强的 LLMs(silver passages)在答案准确性上清楚优于仅提供长高低文的模型。 特意是在处置特定垂直畛域的疑问时,RAG 增强的 LLMs(silver passages)具有清楚优点,其体现优于那些仅依托零样本常识(zero-shot knowledge)或完整 PDF 文档作为高低文的模型。
另外,在回答 敞开式疑问 时,带有高低文(silver passages 和 gold passages)的 LLMs 体现最为杰出;但是,在应答 发散性疑问 和 解题型疑问 时,它们的体现则相对较差。
本文[8]对 RAG 与长高低文 LLMs 启动了片面比拟,目的是发现并应用两者的短处。
钻研方法包括经常使用三种最新的 LLMs,在多个地下数据集上对 RAG 和长高低文 LLMs 启动基准测试。
钻研发现, 在资源短缺的状况下,长高低文 LLMs 的平均性能一直优于 RAG 。不过, RAG 的老本清楚更低 ,这依然是一个清楚的优点。
图 9 展现了经常使用 GPT-4o,GPT-3.5-Turbo 和 Gemini-1.5-Pro 这三种最新 LLMs 的长高低文LLMs、RAG 以及本论文提出的 SELF-ROUTE 方法的比拟结果。
图 9:虽然长高低文 LLMs(LC)在处置、了解长高低文方面胜过 RAG,但 RAG 在老本效益上具有清楚优点。Source: Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach.[8]
SELF-ROUTE 是一种联合了 RAG 和长高低文 LLMs 的一种简便而有效的方法,目的是在降低老本的同时,还能坚持与长高低文 LLMs 相媲美的性能。该方法应用 LLMs 的自我反思才干去路由 queries ,并假设 LLMs 能够准确预测现有高低文能否足以回答 queries。
该方法分为两个阶段: 首先是 RAG 及路由阶段,而后是长高低文预测阶段(long-context prediction step)。
在第一阶段 ,咱们向 LLMs 提供查问和检索到的文本块,并疏导它预测能否能够回答 query 。假设可以,LLMs 就会生成答案。这一环节与规范 RAG pipeline 相似,但有一个关键区别:LLMs 有权选用不回答,并在提醒词中注明“假设基于现有文本无法回答 query,请写‘无法回答’”。
关于那些判别为可以回答的 query ,咱们间接驳回 RAG 的预测结果作为最终答案。关于那些判别为无法以回答的 query , 咱们则进入第二阶段 ,将完整的高低文提供应长高低文 LLMs 以取得最终的预测结果。关系的提醒词内容展如今图 10 中。
图 10:为每个数据集提供有相应的提醒词。Source: Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach.[8]
此外,该论文还启动了几项幽默的剖析。
首先,本论文讨论了在经常使用 top-k 方法检索到的文本块中 k 值如何影响检索结果。
图 11:随着 k 的参与,模型性能和实践经常使用的 token 百分比的变动曲线(a)和(b)。Source: Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach.[8]
图 11 展现了随着 k 的参与,模型性能和实践经常使用的 token 百分比的变动曲线(a)和(b)。
在性能方面,关于 RAG 和 SELF-ROUTE,k 值越大,性能越好。随着 k 的参与,更多文本块被输入到 LLMs 中,性能逐渐优化,逐渐凑近长高低文。
从变动曲线中可以看出,在 k 值较小时,SELF-ROUTE 的性能优点最为清楚,而当 k 超越 50 时,三种方法的性能体现趋于相反。
最优的 k 值或者因数据集而异。例如,平均而言,k=5 在曲线上显示的老本最低,但在某些数据集上,尤其是那些不须要 multi-hop 推理的提取式疑问数据集(如 NarrativeQA 和 QMSum ),k=1 的老本最低。这标明,最优的 k 值取决于义务的性质和性能要求。
该论文还经过手动审核 RAG-and-Route 步骤预测为“无法回答(unanswerable)”的示例,剖析了 RAG 系统失败的要素。它总结了四种典型的失败要素,如图 12 从 A 到 E 所示。
图 12:Prompt for the failure case analysis. Source: Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach.[8]
接上去,经常使用 Gemini-1.5-Pro 对提醒词启动处置,以识别一切无法回答的示例。
图 13 展现了 LongBench 中七个数据集中失败要素的散布状况。每个数据集或者蕴含不同数量的 RAG 失败案例,因此条形图的高度也会有所不同。
图 13:典型的 RAG 失败要素散布。Source: Retrieval Augmented Generation or Long-Context LLMs? A Comprehensive Study and Hybrid Approach.[8]
咱们观察到各技术在不同数据集下的性能体现:
本钻研提出了一种名为 ChatQA 2 的新模型,该模型基于 Llama3,目的是增加开源大言语模型与顶级闭源大言语模型(如GPT-4-Turbo)在长高低文了解和 RAG 才干方面的差距。
此外,该钻研还经常使用最先进的长高低文 LLM 对 RAG 和长高低文处置打算启动了片面比拟。
如图 14 所示, 关于序列长度(sequence length)为 32K 的下游义务,长高低文处置打算在性能上优于 RAG。虽然经常使用 RAG 可以节俭老本,但或者会稍微降低准确率。
图 14:在最大输入为 32K tokens 的基准测试上,对 RAG 与长高低文启动评价比拟。Source: ChatQA 2[9]
如图 15 所示, 当高低文长度超越 100K 时,RAG 的性能优于长高低文处置打算。
图 15:在最大输入超越 100K tokens 的义务上,对 RAG 与长高低文启动评价。Source: ChatQA 2[9]
这标明,即使是最先进的长高低文 LLM ,也或者难以有效地理解和推理,在事实环球的 128K 义务中,其体现或者不迭 RAG 方法。因此,在这种状况下,可以思索经常使用 RAG 来提高准确率和降低推理老本。
以下是我的一些思索和见地。
从钻研论文中咱们可以看到,长高低文 LLMs 在许多方面都超越了 RAG,但在须要专业常识的细分畛域和老本方面,RAG 仍具有清楚优点。
RAG 或者会继续存在。超长 LLMs 高低文窗口很有协助,但处置每个恳求 200k 或 1M 个 tokens 的老本十分高,或者高达 20 美元[11]。
目前,我能想到的惟逐一种 RAG 或者会被长高低文 LLM 取代的状况是: 假设企业的运行场景相对便捷,而建设 RAG 系统的人力老本
本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/6022.html