驳回RAG和常识图谱克制人工智能幻觉疑问

电脑网络维修
2024-11-15

将RAG与常识图谱相联合可以提高生成式人工智能运行程序的准确性，可以经常使用现有的数据库来成功。

生成式人工智能依赖于数据来构建对用户查问的照应。而训练大型言语模型(LLM)须要经常使用少量数据，例如OpenAI公司的GPT-3经常使用了CommonCrawl数据集启动训练，该数据集领有570GB字节的数据和0亿个令牌。虽然这些数据集的规模宏大，但都是期间快照，无法照应围绕出现的事情的查问。人工智能的反响也或许包括“幻觉”——提供看似正当但并不实在的消息。依据Vectara公司颁布的幻觉排行榜，即使是体现最好的LLM系列(目前是OpenAI公司开发的产品)，也存在1.5%至1.9%的幻觉率。

因此，独自经常使用LLM面临两个疑问：答案或许过期或许失误。为了克制这些潜在的疑问，组织可以经常使用数据流将新消息失掉到他们的数据集中，并部署检索增强生成（RAG）以与生成式人工智能一同经常使用的方式对业务数据启动编码。

RAG创立了一组数据，可以搜查与用户查问相关的语义婚配，而后将这些婚配与LLM共享，以便蕴含在照应中。随着期间的推移，向量数据集可以参与新的或额外的数据，因此可以将相关和及时的数据蕴含在照应中。

RAG面临的应战

虽然RAG使组织能够将自己的数据与生成式人工智能服务联合经常使用，但它并不完美。在将RAG部署到消费环境中遇到的一个应战是，它无法处置蕴含相似或相反消息的少量文档之间的搜查。当这些文件被分块并转换成向量嵌入时，每个文件都有可供搜查的数据。当这些文件中的每一个都有十分相似的块时，找到与该恳求婚配的正确数据会变得愈加艰巨。当查问的答案存在于多个相互交叉援用的文档中时，RAG也会遇到艰巨。而RAG不知道这些文档之间的相关。

例如，假定组织曾经开发了一款聊天机器人服务，它可以调用其产品数据来回答客户的查问。组织曾经将小部件目录转换为向量数据，但是这些小部件都十分相似。当客户查问聊天机器人时，即使有RAG，如何确保提供的照应是准确的？假设这些目录蕴含指向其余具备额外场景的文档的链接怎样办？提出不准确的倡导或提供不准确的查问将影响客户互动。

回答这个疑问是思索驳回一种不同的常识治理方法，为RAG所长于的上班提供补充。微软钻研院在往年早些时刻颁布了一份关于将常识图谱和RAG联合经常使用的钻研报告，其中包括一种名为GraphRAG的技术。

常识图谱将数据点示意为“节点”和“边”，而不是将数据存储在传统搜查的行和列中，也不是作为向量搜查的嵌入。节点将是一个共同的理想或特色，并且边将衔接与该理想有相关相关的一切节点。在产品目录的示例中，节点或许是单个产品，而边将是每个产品所具备的相似特色，例如尺寸或色彩。

向常识图谱发送查问触及查找与该搜查相关的一实际体，而后创立一个常识子图，将这些实体会集在一同。这样可以检索出与查问相关的消息，而后将其前往给LLM并用于构建照应。这象征着可以处置具备多个相似数据源的疑问。与其将每个源视为不同的源并屡次检索相反的数据，不如只检索一次性数据。

在RAG中经常使用常识图谱

要在RAG运行程序中经常使用常识图谱，组织可以经常使用现有的、经过测试且已知事前正确数据的常识图谱，也可以创立自己的常识图谱。当组织经常使用自己的数据（例如产品目录）时，须要整顿数据并审核其准确性。

组织可以经常使用自己的生成式人工智能方法来协助成功这一指标。LLM的构建是为了从内容中提敞开息，并在须要时对数据启动汇总。关于常识图谱，可以智能地以正确的格式构建数据，并且随着期间的推移参与更多的数据，允许对常识图谱的任何更新或更改。盛行的LangChain服务上有多个工具可以查问文件，而后提供常识图谱，包括LLM Graph Transformer和Diffbot，而常识提取工具REBEL是另一种选用。

关于公用的图剖析名目，或许须要驳回一个完整的图数据库，该数据库可以经常使用Gremlin和Cipher等图形言语运转完整的查问。但是，为了允许作为RAG运行程序一局部的常识图谱恳求，只有要运转同时笼罩两三个节点的小搜查。这象征着恳求通常会示意为几轮便捷的查问（每步一个）或SQL衔接的方式。在更大的数据集中启动搜查不太或许前往正确的照应——理想上，这或许会造成查问失控，这些查问处置期间过长或实践上无法改善全体照应。

因此，可以经常使用现有的数据库来存储常识图谱数据，而不是部署额外的图数据库。这也简化了数据运营方面的上班，由于可以缩小随期间推移而须要更新新数据的数据平台数量。

将常识图谱与RAG相联合可以提高生成式人工智能运行程序在响运行户查问时的准确性。经过将不同的数据治理技术相联合，可以在数据性能和恳求中的语义了解方面取得一举两得的成果。

原文题目： OvercomingAIhallucinationswithRAGandknowledgegraphs ，作者：Dom Couldwell

关注微信

上一篇：AI数据周期适宜大规模AI上班负载的最佳存储组合

下一篇：这五种拓扑结构将扭转你对网络的认知！网络架构大解析

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：https://duobeib.com/diannaowangluoweixiu/7961.html

驳回RAG和常识图谱克制人工智能幻觉疑问

RAG面临的应战

在RAG中经常使用常识图谱

猜你喜欢

热门标签

随便看看

TCP发送窗口接纳窗口以及其上班原理

I 如何发现 PostgreSQL 和中那些消耗 CPU

如何改良DevOps上班流

安保无大事安保防范从Nginx性能做起程序员安保规范

斯坦福学者提出Edu

热门资讯

阅读排行

简析机器学习和深度学习之间的区别

泼冷水想太多 o1准确率直降36.3%！专家为思想链这三种义务不适宜让AI ！钻研发现 Ope

做好数据迷信离不开这7步

人工默认技术开发人员应遵照的7条品德准绳

专业开发人员必备开发工具列表

关注我们

驳回RAG和常识图谱克制人工智能幻觉疑问

RAG面临的应战

在RAG中经常使用常识图谱

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号