摘要 极大加弱小模型问答 推理 微软开源GraphRAG

  • 电脑网络维修
  • 2024-11-14

7月3日,微软在官方开源了基于图的RAG(检索增强生成)——GraphRAG。

为了加弱小模型的搜查、问答、摘要、推理等才干,RAG曾经成为GPT-4、Qwen-2、文心一言、讯飞星火、Gemini等国际外出名大模型标配配置。

传统的RAG系统在解决外部数据源时,只是繁难地将文档转换为文本,将其宰割为片段,而后嵌入到向量空间中,使得相似的语义对应相近的位置。

但这种方法在解决须要全局了解的海量数据查问时存在局限,由于它适度依赖部分文本片段的检索,无法捕捉到整个数据集的全貌

所以,微软在RAG基础之上经过“Graph”图的模式,例如,文本中的实体,人物、地点、概念等,构建了超大的常识图谱,协助大模型更好地捕捉文本中的复杂咨询和交互,来增强其生成、检索等才干。

开源地址:

Graph RAG架构繁难引见

Graph RAG的外围是经过两阶段构建基于图谱的文本索引:首先,从源文档中衍生出实体常识图谱;而后,针对一切严密相关的实体群组预生成社区摘要。

所以,Graph RAG的第一步就是将源文档宰割成较小的文本块,这些文本块随后被输入到大模型中以提取关键消息。

在这个环节中,大模型不只有识别文本中的实体,还要识别实体之间的相关,包括它们之间的相互作用和咨询,用来构建一个宏大的实体常识图谱,其中蕴含了数据集中一切关键实体和它们之间的相关。

繁难来说,这个环节就像杀鸡一样,当一整只鸡(数据)拿过去后,咱们就要把它合成成腿、翅膀、胸肉等更粗大的组成部分,同时会关注这些部位之间的相关繁难后续的解决。

接着,Graph RAG经常使用社区检测算法来识别图谱中的模块化社区。这些社区由相关的节点组成,它们之间的咨询比与图中其余部分的咨询更为严密。 经过这种模式,整个图谱被划分为更小、更易于治理的单元,每个单元都代表了数据集中的一个特定主题或概念

在基于图的索引之上,Graph RAG进一步生成社区摘要。这些摘要是对社区内一实际体和相关的总结,它们提供了对数据集中特定部分的上档次了解。

而后要求大模型对每个答案启动打分,分数在0—100之间,得分过低的将被过滤掉,高分则留下。将残余的两边答案依照得分高下排序,逐渐增加至新的上下文窗口中,直至词数限度。

例如,当用户提问“如何启动有效减肥时?”,系统会应用与疑问相关的社区摘要来生成部分答案。这些部分答案随后被汇总并精炼,以构成最终答案。

Graph RAG对大模型的好处

与传统RAG相比,Graph RAG的全局检索才干十分强,所以很长于解决大规模数据集,以下是对大模型的关键协助。

裁减上下文了解才干: 理论大模型受限于其上下文窗口的大小,这限度了它们了解和生成基于长文本的才干。Graph RAG经过构建基于图的索引,将整个文本汇合合成成更小、更易于治理的社区模块,从而裁减了模型的了解和生成才干。

增强全局查问: 传统的RAG方法在解决全局数据的查问时体现不佳,由于依赖于部分文本片段的检索。Graph RAG经过生成社区摘要,使得模型能够从整个数据集中提取相关消息,生成愈加片面和准确的答案。

提高摘要的品质和多样性: Graph RAG方法经过并行生成社区摘要,而后汇总这些摘要来生成最终答案,能协助大模型从不同的角度和社区中提敞开息,从而生成更丰盛的摘要。

优化算力、资源应用率: 在解决大规模文本数据集时,资源的有效应用至关关键。Graph RAG经过模块化解决,缩小了对算力资源的需求。与传统的全文摘要方法相比,Graph RAG在生成高品质摘要的同时,清楚降落了对token的需求。

优化消息检索和生成的协同: Graph RAG方法经过联合检索增强和生成义务,成功了两者之间的协同上班,提高了生成内容的准确性和相关性。

增强了对数据集结构的了解: 经过构建常识图谱和社区结构,Graph RAG不只协助模型了解文本内容,还能了解数据集的外在结构。

提高对复杂疑问的解决才干: 在解决须要多步骤推理或多文档消息整合的复杂疑问时,Graph RAG能够经过检索和摘要不同社区的消息,优化对疑问更深档次的了解。尤其是在解读PDF、Word等文档时十分有用。

为了评价Graph RAG的性能,微软在一个100万tokens、超复杂结构的数据集上,蕴含文娱、播客、商业、体育、技术、医疗等外容,启动了综合测试。

结果显示, 全局检索方法在片面性和多样性测试上,逾越了Naive RAG等方法 。特意是,Graph RAG方法在播客转录和资讯文章数据集上都显示出了超高的水准,多样性也十分片面,是目前最佳的RAG方法之一。

同时Graph RAG对tokens的需求很低,也就是说可以协助开发者节俭少量老本。

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5400.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号