VisRAG 效果优化清楚 面壁自动提出了一种新的RAG思绪 清华大学&amp

  • 电脑网络维修
  • 2024-11-15

1. 为啥要提出VisRAG?

检索增强生成(Retrieval-augmented generation, RAG) 曾经成为处置LLM幻觉和常识降级的经典打算,典型的RAG流程是基于文本的(以下简称TextRAG),以宰割后的文本作为检索单元。

但是在实在场景中,常识往往 以多模态的方式 发生,比如教科书、手册等。这些文档中的文本与图像交织在一同。为了从这类数据源中提取文本,理论须要一个解析阶段,这包括规划识别、光学字符识别(OCR)和文本兼并等后处置步骤。虽然这种方法在大少数状况下是有效的,但解析环节还是会无法防止地引入失误,从而对检索和生成阶段发生负面影响。

TextRAG只应用了文本消息,疏忽了其余模态,如图像中或者蕴含的消息。虽然曾经对图像检索和多模态RAG启动了钻研,但这些钻研重要集中在预约义场景中,其中图像和形容性文本曾经被正确提取和配对,与事实环球中文本和图像(包括图形)经常交织在单个文档页面内的状况有所不同。

所以,本文作者提出了一种VisRAG,旨在探求齐全基于视觉言语模型(VLMs)构建纯视觉RAG流程的可行性。

2. 什么是VisRAG?

VisRAG是一种新型视觉检索增强生成系统,由VLM驱动的检索器VisRAG-Ret和生成器VisRAG-Gen组成。

如上图(左边)所示,TextRAG 理论经常使用基于文本的单元启动检索和生成。左边是 VisRAG,与传统RAG框架应用文本片段启动检索和生成不同,VisRAG经过文档图像来保管所有消息,确保数据的完整性。

2.1 检索阶段

VisRAG的首个环节,即VisRAG-Ret,在给定查问q的状况下,从文档汇合D中检索出一系列页面。

自创了文本密集检索器的 Bi-Encoder 架构,将查问和文档( 间接经常使用文档图像,而非依赖提取的文本内容 )映射到嵌入空间。

Bi-Encoders:将句子 A 和 B 独立地传递给 BERT,从而发生句子嵌入 u 和 v,而后可以经常使用余弦相似度比拟。

查问和页面在VLM中区分以文本和图像的方式独立编码,为了获取最终的嵌入向量,驳回了位置加权平均池化处置VLM的最后一层暗藏形态。

2.2 生成阶段

VisRAG的第二环节:VisRAG-Gen,应用视觉言语模型(VLM)依据用户查问和检索出的页面熟成答案。思考到检索出的页面往往都不止一页,而大少数多模态大模型只能接受单张图片,所以提出了两种打算来成功:

• 页面兼并(Page Concatenation):将检索出的页面兼并为一张图片,在VisRAG中,作者重要尝试的是水平兼并。

• 加权挑选(Weighted Selection):让VLM为top-k中的每个页面熟成一个答案,并选用置信度最高的答案作为最终答案。

3. 效果对比

3.1 检索功能

对比了VisRAG-Ret与三种状况模型启动对比:

• a. 现成模型

• b. 仅应用分解数据的跨畛域模型

• c. 同时应用畛域内和分解数据

如上表(a)(b)所示,VisRAG-Ret在跨畛域数据上的训练成绩逾越了一切现成基线模型,包括文本和视觉模型。它清楚地优于BM25和bge-large,并逾越了领有7.85B参数的先进文本检索模型NV-Embed-v2。

bge-large和NV-Embed-v2是在数百万查问-文档对上训练的,比VisRAG-Ret训练数据多出10倍。虽然bge-large在MTEB等基准测试中胜过BM25,但在作者的数据集上体现不佳,标明:在洁净文本上训练的嵌入模型难以应答事实环球文档解析出的文本。

当在相反的数据设置下训练时,VisRAG-Ret清楚逾越了文本模型MiniCPM (OCR) & (Captioner)和视觉模型SigLIP。

在跨畛域环境中,VisRAG-Ret的长处愈加清楚,相较于MiniCPM (OCR)和SigLIP区分 成功了15%和22%的优化 ,而在畛域内环境中优化为8%和10%。说明VisRAG-Ret相比以文本和视觉为核心的模型具备更佳的泛化才干。

虽然MiniCPM (Captioner)经常使用了相反的VLM MiniCPM-V 2.0启动解析,但其体现不迭VisRAG-Ret,这标明 间接用VLMs编码比用VLMs解析更为有效 。或者是由于在将多模态消息转录为文本时无法防止地会有消息损失。

MiniCPM (OCR)和SigLIP在不同数据集上的体现各异:

• SigLIP在ArxivQA和ChartQA中体现杰出,而MiniCPM (OCR)在DocVQA和InfographicsVQA中清楚优于SigLIP。这或者是由于两个模型的关注点不同:MiniCPM并重于文本,而SigLIP并重于视觉信号。

• VisRAG-Ret基于MiniCPM-V 2.0构建,联合了SigLIP编码器和MiniCPM言语模型的长处,在一切数据集上均有良好体现,能够从文档中捕捉更片面的消息。

与ColPali相比,ColPali是一个多向量文档页面嵌入模型,VisRAG-Ret坚持了优越的功能,成功了更佳的内存效率。ColPali用散布在1030个128维向量上的256KB数据示意一页,而VisRAG-Ret仅经常使用单个2304维向量的4.5KB。这使得VisRAG-Ret更适宜在事实环球的运行中裁减至数百万或数十亿文档。

3.2 生成功能

在一致的检索自动体VisRAG-Ret之上,运行了多种基于文本和视觉的生成器和方法,探求它们在给定查问和检索文档的状况下生成答案的才干。

上表展现了多种生成方式的效果:

• a. 基于文本的生成(TextRAG-Gen)

• b. 驳回单张图片输入的VLM MiniCPM-V 2.0启动的生成

• c. 驳回能接受多张图片输入的VLM启动的生成

当模型仅被提供实在文档("Oracle")时,间接处置文档图像的VisRAG-Gen模型清楚逾越了仅依赖提取文本的RAG-Gen模型。比如:MiniCPM-V 2.0在应用实在文档时的功能比MiniCPM (OCR)高出36%。从文档中提取答案时视觉线索的关键作用,并显示出VisRAG-Gen相比TextRAG-Gen有着更高的功能后劲。

在实践运行场景中,模型理论会接纳到蕴含噪声的前1至3个检索文档,VisRAG-Gen在同一系列模型中继续逾越TextRAG-Gen。

特意是关于仅能处置单张图片的MiniCPM-V 2.0,加权选用方法在处置2或3个检索文档时,比页面兼并方法展现出更优的体现。便捷的兼并或者会向VLM传递过多不用要的消息,而加权选用则基于各个文档的条件,经过多个VLM输入来挑选答案,从而减轻了消息负载。

TextRAG流程理论因检索文档数量的参与而受益,由于这能更好地笼罩信。但是,虽然加权选用增强了功能的持重性,但驳回这种方法时,随着检索文档数量的参与,并没有带来清楚的功能优化。值得留意的是,仅有最先进的VLM,如能处置多张图片的GPT-4o, 随着检索文档数量的参与,体现出清楚的功能优化 。这标明对多张图片启动推理对的VLM来说仍是一个应战。

3.3 全体功能

在这项试验中,对比了VisRAG与TextRAG两条处置流程的效果,以评价VisRAG流程的有效性。

TextRAG流程中,驳回了MiniCPM (OCR)担任检索,MiniCPM-V 2.6 (OCR)担任生成,而VisRAG流程则由VisRAG-Ret担任检索,MiniCPM-V 2.6担任生成。

下面两个图展现了在InfographicsVQA数据集上的功能体现。

VisRAG在准确检索文档的比率上逾越了TextRAG,并且在从准确检索到的文档生成正确答案的比率上也有清楚优化。检索和生成两个阶段的综合改良,使得全体准确率从22.1%优化至42.7%。

在六个评价数据集中,VisRAG平均成功了39%的准确率优化(如上图)。

• 论文原文:

本文转载自​​,作者:​​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/6202.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号