从零成功大模型

  • 电脑网络维修
  • 2024-11-15

传统RAG

LLM预训练和微调普通都是基于地下的互联网数据,无法能蕴含公司外部私有数据,假设你问无关某公司的经营状况,间接基于模型参数生成的回答或许和胡言乱语没什么两样。

RAG(Retrieval-Augmented Generation)的思维就是将私有数据作为参考消息传递给LLM。这些私有数据除了作为一种补充消息,也可以作为一种限度,能防止LLM发生幻觉。

参考消息普通以文本、图片等非结构化方式存在。

RAG的流程是:

1.首先要将文本划分红片段,而后将片段转换成向量存储到向量数据库中备用,这个向量就是这段文本语义消息的数字示意。

2.将用户查问转换成向量。并与一切文本片段向量启动相似度计算,取出top k个片段。

3.将用户查问和k个文本片段组织成特定prompt格局输入到LLM中。

(计算文本的向量可以调用API或许经常使用像llamaindex这样的库)

但传统的RAG仍有一些限度。

例如,基于某个公司的经营数据搭建RAG,由于LLM高低文大小的限度,划分的文本片段无法能太大,所以每个文本片段无法能蕴含太多消息。

假设你问某个员工去年的开售业绩,基于RAG,LLM很或许会给出准确回答,由于某个文本片段很或许蕴含了某个员工的消息。

但假设你问该员工所在团队去年的开售状况呢?就算某个文本片段蕴含了该团队的开售数据,LLM也很难经过该员工找到团队的其它成员。

微软最近提出的GraphRAG(Graph-based Retrieval Augmented Generation)就是处置这个疑问。

GraphRAG就是将图和传统的RAG联合了起来。

结构常识图谱

图是由节点和边组成的,节点可以示意各种实体,边示意实体之间的相关。

GraphRAG的外围就是结构常识图谱,可以经过GPT4或许经常使用像llamaindex(KnowledgeGraphIndex)这样的库结构常识图谱。

将公司经营文档构形成常识图谱:

1.识别出文档中蕴含的实体以及实体之间的相关(员工,共事)

2.将实体启动聚类(同组共事)

3.对每个聚类启动总结(开售状况)

4.将实体启意向量化,转换到图向量空间

5.提取实体对应的原始文本,并转换成向量

当用户提问时,首先在常识图谱中找到与用户提问语义相关的实体,同时找到与实体相关的原始文本,最后将这些消息组织成特定prompt格局输入给LLM。

References

[1]

[2]

[3] ​ ​​ ​

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5596.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号