LLM 从大模型 RAG 的运行 Agent 到智能体检索增强生成

电脑网络维修
2024-11-14

引言

随着人工智能技术的飞速开展，大型言语模型（LLM）、检索增强生成（RAG）和智能体（Agent）曾经成为推进该畛域提高的关键技术，这些技术不只扭转了咱们与机器的交互方式，而且为各种运行和服务的开发提供了史无前例的或许性。正确了解这三者的概念及其之间的相关是做好面向AI编程开发的基础：

大模型（LLM）	检索增强生成（RAG）	智能体（Agent）
定义	大型言语模型（LLM），如GPT系列、BERT等，是应用少量文本数据训练的模型，能够生成连接的文本、了解言语、回答疑问等。	检索增强生成技术联合了传统的消息检索技术和最新的生成式模型。它先从一个大型的知识库中检索出与查问最相关的消息，而后基于这些消息生成回答。	智能体是指具有必定智能的程序或设施，能够感知环境并依据感知结果做出照应或决策的实体。它们可以是繁难的软件程序或复杂的机器人。
作用	LLM作为基础技术，提供了弱小的言语了解和生成才干，是构建复杂人工智能系统的基石。	RAG可以视为在LLM基础上的裁减或运行，应用LLM的生成才干和外部知识库的丰盛消息来提供更准确、消息丰盛的输入。	智能体可以应用LLM启动人造言语处置，经过RAG技术取得和应用知识，以在更宽泛的环境中做出决策和口头义务。它们通常位于运行层级，是对LLM和RAG技术在特定环境下的集成和运行。

从层级相翻开看，大模型（LLM）提供了基础的言语了解和生成才干。在此基础上，检索增强生成（RAG）技术应用这种才干联合特定的知识库来生成更为准确和相关的输入。智能体（Agent）则在更上档次上经常使用LLM和RAG，联合自身的感知和决策才干，在各种环境中口头详细的义务。

因此，可以了解为LLM是基础，RAG是在LLM基础上的进一步运行，而智能体则是综合运用LLM和RAG以及其余技术，在更复杂环境中启动交互和义务口头的实体。这种相关表现了从基础技术到运行技术再到实践运行的逐级深化。

随着技术的极速提高，如何更高效地利用这些大模型（LLM）来处置详细疑问？如何经过检索增强生成（RAG）技术提高消息的准确性和相关性？以及如何设计能够有效集成LLM、RAG和其余AI技术的智能体？这些疑问的处置，不只须要深化了解这些技术的上班原理和运行场景，还须要探求它们之间的相互作用和集成方法。

大模型（LLM）的概念与工程化通常

大型言语模型（LLM），如OpenAI的GPT系列，是一种基于深度学习的人造言语处置技术。它们能够了解、生成、翻译文本，成功问答义务，甚至编写代码。这些模型经过在大规模文本数据上的预训练，学会了言语的复杂结构和丰盛的知识，使其能够在没有明白批示的状况下口头各种言语义务。GPT系列模型基于变换器（Transformer）架构，这是一种高效的深度学习模型结构，特意适宜处置序列数据，如文本。变换器应用自留意力（self-attention）机制，能够捕捉文本中长距离的依赖相关，这关于了解和生成人造言语（NLG）至关关键。

目前，OpenAI最新版本的LLM工程化运行是以GPT-4为基础的，针对普通用户有3个版本，区分是收费版本（只能经常使用GPT-3.5）、Plus版本以及团队版本（Plus的配置加上团队协同上班控制）。每个月支付20美元（不含税）即可经常使用Plug版本，即ChatGPTPlus，它的关键配置有：

Chat（对话）

与“OpenAI最弱小的模型GPT-4”启动对话，不止是文本的交互生成，还可以同时启动基于DALL-E的图文交互生成，以及从互联网实时失掉最新知识启动辅佐剖析和生成。如下图：

GPTs（插件）

假设你想将自己独有的指令、知识库或任何才干的API服务，同预训练的GPT-4 LLM联合在一同，创立一个“自定义模型”，那么，可以经常使用“GPTs”插件配置在Open AI的Web运行上极速构建进去。GPTs的推出表现了OpenAI异乎寻常的工程化翻新才干，其交互设计理念值得咱们自创。经常使用它的步骤可以参考如下这个例子：

1. 通知 GPT Builder导游（实践上这也是一个官网的GPTs）你要做什么，它会提醒你可以这样说："制造一个协助生成新产品视觉效果的创意人 "或 "制造一个协助我格局化代码的软件工程师"。如下图：

2. 输入“创立一个物流系统的技术支持工程师，协助商家解答系统疑问和处置意外订单”，接上去GPT Builder会和你做一些j繁难的对话，比如征求你关于命名、Logo的倡导等等，如下图：

3. 仅须要2轮冗长对话，一个名为“小狗物流平台技术支持”的GPTs被初步创立进去了。生成的“Instrucitons”局部可以视为GTP的System Prompt（系统提醒），须要特意留意依照这4个维度批改Instrucitons，直到其准确合乎你的用意：1）定位，宿愿GPTs口头什么类型的义务；2）高低文，给GPTs提供一些额外的消息，比如垂直畛域的知识，从而疏导其给出更好的回答；3）输入数据，“限定”GPTs疏导用户提出的疑问，确保不偏离主题；4）输入数据，“限定”GPTs给出指定格局和范围的输入，确保不输入有关的内容。如下图：

4. 重点来了，在这里可以经常使用“Upload files”配置上行你自己的“知识库”文件给到大模型推理，文件可以是文档、表格、图片等多种格局，这可以了解是一种对LLM的“静态”增强。如下图：

5. 更关键的是，可以经过增加“Actions”的方式，接入你的API服务给到大模型调用，API经过遵照OpenAPI3的规范启动自形容。大模型可以依据API的配置形容以及输入输入定义，联合用户会话高低文启动智能的调用，失掉你的私域数据启动推理，这可以了解是一种对LLM的“灵活”增强。如下图：

6. 最后，你可以把你精心“调教”进去的“自定义模型”分享给任何人或许颁布到OpenAI的GPTs商店，如下图：

GPTs商店自2024 年终上线以来3个月时期，曾经有超越 300 万个自定义的 ChatGPT颁布。商店的配置包括2个排行榜，区分是“顶级介绍”和“盛行趋向”；详细的分类有 DALL-E图像创作、写作、效率、钻研和剖析、编程、教育以及生存方式共7项，并且将由ChatGPT官网创作的自定义模型启动独自分类展现。例如在钻研和剖析（Research & Analysis）类排名第二的“Scholar GPT”能够应用Google Scholar、PubMed、JSTOR、Arxiv等学术库的2亿+资源和内置的批评性浏览技艺，助力你提高钻研水平，可谓是撰写论文的神器；在效率（Productivity）类排名第一Canva能够轻松协助你设计演示文稿、徽标、图文混排等多种内容，并且支持你间接在其提供的Web运行上对AI生成的源文件启动编辑调整，直抵达成满意的效果。目前，曾经有创作者经过GPTs商店共同的AI生态，成功了自己的商业形式，值得咱们学习自创。

API（放开接口）

假设你不想依赖于OpenAI的生态平台成功自己的AI运行和商业形式，但又想借助其提供的ChatGPT等基础才干，那么，经过调用其对外放开的API接口不时是最好的选用。因此，OpenAI在推出GPTs的同时，也极速的上线了“Assistant API” 的Beta版本，在这个版本中，你可以成功GPTs中提到的一切“增强”大模型的才干，并经过API的方式将其对外颁布，供第三方运行调用，并且支持GPT-4模型（当然调用多少钱也是不菲），如下图：

同时，你依然可以经过传统的“fine-tuning model”API定制自己的微调大模型，这种方式关键是经过你上行格局化的“问-答”型的训练数据文件来成功对LLM的“增强”。相关于最新推出的“Assistant API” ，觉得这种方式在工程化的显得不够灵敏和间接，不是很“智能”，目前“fine-tuning model”最高也只能支持GPT-3.5系列模型。如下图：

检索增强生成（RAG）技术概述和运行

经过上一章的引见，你可以发现OpenAI曾经大规模经常使用工程化的技术经常使用户能够基于自己的知识库对其GTP系列大模型启动“增强”，从而成功愈加垂直化、共性化的才干。那么，假设你基于老本或安保的思索，想在私域启动自有知识库的“增强”，甚至切换成其它的大模型来经常使用这个“增强”，就不得不思索自行开发成功了，这时刻就须要了解检索增强生成（RAG）概念和向量数据库技术的运行。

什么是检索增强生成

检索增强生成（RAG）技术人工智能的运行方法，它经过联合传统的消息检索技术与最新的生成式深度学习模型，来优化消息的准确性和相关性。RAG通常来自于2020年Facebook的论文 Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks（知识密集型人造言语处置义务的检索增强生成，原文：）。RAG的外围理想是在大模型生成回答之前，先从一个知识库中检索出与查问最相关的消息，而后基于这些消息生成准确的回答。

普通来说RAG的上班原理是：首先应用一个检索组件在知识库（这个环节普通经常使用向量数据库成功）中查找与用户查问相关的文档或数据，这一步骤确保了生成环节基于的是与查问高度相关的消息。随后，这些检索到的消息被送入一个生成模型（如GPT系列大模型），该模型联合检索到的消息和原始查问生成详尽的回答或内容。其外围流程如下图（参考：）：

RAG典型的运行场景普通在问答系统、内容介绍、数据剖析畛域。其优点关键在于能够联合检索结果生成回答，提高了只依赖大模型回答的准确度、实时性和消息的丰盛性。

为什么是向量数据库

上方咱们提到RAG技术普通会经常使用向量数据库做为“知识库”来撑持用户存储和检索自己的文档或数据。关于向量数据库的通常和概念最近随着AIGC的炽热被议论的很多了，这里有2篇文章能让你极速的了解它：

1.引见向量数据库的数学通常：相似性度量——余弦相似度和点积，曼哈顿距离（L1）和欧几里得距离（L2），

2.引见向量数据库的概念、原理、算法以及选型：

关于RAG（检索增强生成）技术方案来说，为什么经常使用向量数据库，关键是由于其不只能提供传统的结构化/非结构化数据库增删改查（CRUD）以及元数据控制的才干，还在处置高维数据，特意是处置深度学习模型生成的向量数据方面具有不凡的优点，详细表如今：

1.维度。深度学习模型生成的文本、图像或语音向量通常位于高维空间中。传统的相关型数据库并不长于处置这类高维数据，由于它们关键是为处置结构化数据（如表格数据）而设计的。相比之下，向量数据库天生就是为了存储和控制高维空间数据而构建，能够有效地处置和存储这类数据。

2.速度。向量数据库专门设计用于存储高维向量，并支持极速的相似性搜查。在RAG技术中，须要从少量数据中检索与查问最相关的消息，这通常触及到计算查问向量与数据库中一切向量之间的相似度。向量数据库经过优化的索引结构和近似最近邻（ANN）搜查算法，能够高效地成功这一义务，清楚提高检索速度。

3.推理。向量数据库支持基于向量相似度的复杂查问，这关于RAG技术中的人造言语查问处置至关关键。它们可以依据查问的语义内容相关性而非仅仅是关键字婚配来检索消息，这使得向量数据库具有“推理”的才干，而非只是“查问”。

向量数据库普通基于嵌入模型（Embedding Models）将文本向量化，从而来成功推理。前面提到Google颁布的BERT模型和OpenAI颁布的GPT模型都能提供嵌入（Embedding）计算的才干，但普通BERT系列模型相关于GPT系列模型会“小”很多，这体如今参数数量和磁盘占用上，可以说是“小模型”和“大模型”之分，在做向量计算时该如何选用呢？繁难的说它们的相反点都是基于深度学习“将数据转换为高维向量表示”。不同点在于小模型并重于数据的有效关联判定和繁难逻辑推理，而大模型则并重于深化了解和生成文本等更复杂的义务，详细如下：

小模型	大模型
设计指标和用途	通常设计为特定义务的一局部，比如将单词、句子或文档转换为向量方式，这些向量随后用于各种义务（如聚类、相似度搜查等）。	为了解文本高低文并生成文本而设计的。可以间接用于生成文本、问答、提取摘要等义务。
模型规模和复杂性	往往相对繁难，参数量少，专一于有效地将数据转换为嵌入向量。普通模型主体占用数百MB磁盘空间。	领有极大的参数量（从几十亿到几百亿不等），设计更为复杂，可以捕捉数据中的纤细语义和结构。占用TB级磁盘空间（AI预算）。
训练数据和环节	训练通常基于特定义务的数据集，指标是学习良好的数据表示。	经过在庞大的数据集上启动预训练，学习言语的宽泛特色和形式，而后可以在特定义务上启动微调（fine-tuning）以提高性能。
在向量数据库中的运行	发生的向量间接用于向量数据库中，以支持极速的相似性检索和推理。	发生的向量可以用于向量数据库。但通常更器重捕捉丰盛的语义消息，在须要深度了解的运行场景中作用更大。

下一节的例子会展现以上区别。

目前，在市场上可供选用的向量数据库产品越来越多了，其中Faiss（Facebook AI Similarity Search）、Milvus等产品曾经可以用于企业级消费。

Chroma是2023年中旬颁布的一个面向AI运行的开源向量数据库，繁难、轻量、易用，是专门为人造言语处置（NLP）、图像分类、构建介绍系统和聊天机器人等畛域的运行而设计的，十分适宜用来极速构建和探求RAG运行。

举个例子

上方用实践Python代码展现一个基于Chroma向量数据库成功RAG关键步骤“文本推理”（对应3.1节示用意环节②③）的例子，区分经常使用“小模型”和“大模型”对中文文本启意向量化处置，而后针对三个疑问启动推理，比拟这两种不同模型失掉的结果：

1. 创立chroma数据库实例并启动它。当然，在此之前你或许须要用一行代码先装置它“pip install chromadb”，更多的资料可以参考官网文档：

 chromadbbasePath  chroma_client  chromadbPersistentClientpathbasePath    strchroma_client

2. 从磁盘上加载4段长文本以及录入4段短文本，用来构建你自己的“知识库”。

# 红楼梦（千字概述，反常格调）file_path_hlm  basePath  # 金瓶梅（千字概述，反常格调）file_path_jpm  basePath  # 水浒传（千字概述，无厘头格调）file_path_shz  basePath  # 指环王（千字概述，莎士比亚格调）file_path_zhw  basePath  docs  file_path_hlm  encodingfile_path_jpm  encodingfile_path_shz  encodingfile_path_zhw  encoding"无法以，早晨喝牛奶不迷信""吃了海鲜后是不能再喝牛奶的，由于牛奶中含得有维生素C，假设海鲜喝牛奶一同服用会对人体形成必定的损伤""吃海鲜是无法以吃柠檬的由于其中的维生素C会和海鲜中的矿物质构成砷""吃海鲜是不能同时喝牛奶吃水果，这个至少距离6小时以上才可以"metas  {: file_path_hlm : file_path_hlm : }{: file_path_jpm : file_path_jpm : }{: file_path_shz : file_path_shz : }{: file_path_zhw : file_path_zhw : }{: }{: }{: }{: }ids

3. 定义处置数据的4个函数，区分是文本转向量的函数、拔出数据表的函数以及2种不同模型创立数据集（可以了解为“数据库表”）的函数。

# 用于将文本输入转换为Bert嵌入向量，自动经常使用 bert-base-chinese 模型和分词器处置文本。def bert_embedding modelName: transformers  BertModel BertTokenizertokenizer  BertTokenizerfrom_pretrainedmodelNamemodel  BertModelfrom_pretrainedmodelNameinputs  tokenizer return_tensors padding truncation max_lengthoutputs  modelinputsembeddings  outputslast_hidden_state:  :detachnumpy embeddingsdef setDatacollection embeddingNone: embedding  None:collectionupsertdocumentsdocsmetadatasmetasidsids:collectionupsertembeddingsembeddingdocumentsdocsmetadatasmetasidsids collection# 经常使用指定的嵌入模型建数据集，不指定则默以为：Sentence Transformers all-MiniLM-L6-v2def getDefaultEmbeddingCollectionembeddingModelName:collection  chroma_clientget_or_create_collectionname embeddingModelName  None   embeddingModelName:setDatacollection:embedding  bert_embeddingdocs embeddingModelNamecollection  setDatacollection embeddingcollectionname    embeddingModelName collectiondef getOpenAIEmbeddingCollection: chromadbutilsembedding_functions  embedding_functionsopenai_ef  embedding_functionsOpenAIEmbeddingFunctionapi_keymodel_namecollection  chroma_clientget_or_create_collectionname embedding_functionopenai_efsetDatacollection collection

4. 在这里定义3个疑问，用来测试基于不同模型数据集的推理才干。同时定义一个函数，打印推理结果。

collections  chroma_clientlist_collections  strcollections# 三个疑问，用来测试不同数据集和向量模型的推理才干q1  "我想了解中国四小名著"q2  q3  "吃完海鲜可以喝牛奶吗?"def testModelcollection q rtNum embeddingModelNameNone: embeddingModelName  None:results  collectionqueryquery_textsq n_resultsrtNumq    strresults  :results  collectionqueryquery_embeddingsbert_embeddingq embeddingModelName n_resultsrtNumq    strresults

有了以上的预备，就可以开局测试了。

首先咱们经常使用“bert-base-chinese”这样的“小模型”对疑问启动推理测试，这是Google基于BERT架构（Bidirectional Encoder Representations from Transformers）推出的中文预训练模型，能够了解中文语境和语义，模型自身约+MB（参考：），口头Python可以智能下载到本地。测试代码如下：

modelName  collection  getDefaultEmbeddingCollectionmodelName  strcollection  testModelcollection q1  modelName testModelcollection q2  modelName testModelcollection q3  modelName

口头上述Python代码，截取控制台打印的相关输入如下：

collection：name idUUID metadataNone tenant 我想了解中国四小名著  查问结果：{:   :   : {: } {: } : None : '无法以，早晨喝牛奶不迷信' '吃海鲜是不能同时喝牛奶吃水果，这个至少距离6小时以上才可以' : None : None}关于宋朝出现的故事  查问结果：{:    :    : {: } {: } {: } : None : '无法以，早晨喝牛奶不迷信' '吃海鲜是无法以吃柠檬的由于其中的维生素C会和海鲜中的矿物质构成砷' '吃海鲜是不能同时喝牛奶吃水果，这个至少距离6小时以上才可以' : None : None}吃完海鲜可以喝牛奶吗?  查问结果：{:      :  : {: } {: } {: } {: } {:  :  : } : None : '无法以，早晨喝牛奶不迷信''吃了海鲜后是不能再喝牛奶的，由于牛奶中含得有维生素C，假设海鲜喝牛奶一同服用会对人体形成必定的损伤''吃海鲜是不能同时喝牛奶吃水果，这个至少距离6小时以上才可以''吃海鲜是无法以吃柠檬的由于其中的维生素C会和海鲜中的矿物质构成砷''《红楼梦》是清代曹雪芹创作的一部长篇小说，被誉为中国现代四小名著之一。该作品经过贾、王、史、薛四大家族的兴衰史，细腻地描画了封建王朝末期的社会生存，深入提醒了封建社会的腐烂与衰落……此处省略1000字' : None : None}

解读一下关键消息：ids字段是前往的结果标识；distances字段是向量距离，意思是疑问和结果的相关性，距离越短表示越相关；documents字段则是前往的详细结果数据。可以发现：

1.“bert-base-chinese”模型的distances普通算进去是百位数；

2.“小模型”是可以基于冗长文本数据启动一些繁难推理的，例如“bert-base-chinese”模型对疑问3“吃完海鲜可以喝牛奶吗?”的推理结果“基本”合格；

3.“小模型”基于较长文本数据的推理很“随机”，效果很差，例如“bert-base-chinese”模型关于疑问1“中国四小名著”和疑问2“宋朝的故事”的疑问就齐全无法了解，虽然在我提供的长文本数据里清楚含有这2个疑问的关键词。

而后咱们经常使用“OpenAI text-embedding-ada-002”这样的“大模型”对疑问启动推理测试。测试代码如下：

collection  getOpenAIEmbeddingCollection  strcollection  testModelcollection q1  testModelcollection q2  testModelcollection q3

口头上述代码，失掉如下关键输入：

collection：name idUUID metadataNone tenant 我想了解中国四小名著  查问结果：{:   :  : {:  :  : } {:  :  : } : None : '《红楼梦》是清代曹雪芹创作的一部长篇小说，被誉为中国现代四小名著之一。该作品经过贾、王、史、薛四大家族的兴衰史，细腻地描画了封建王朝末期的社会生存，深入提醒了封建社会的腐烂与衰落。小说以贾宝玉和林黛玉的恋情喜剧为主线，经过丰盛的人物群像和盘根错节的情节展现了一个宽广的社会生存画卷……此处省略1000字''《金瓶梅》是中国文学史上的一部关键小说，被以为是明代中期的作品，作者普通被以为是兰陵笑笑生。这部小说以宋代开封为背景，详细描画了客人公西门庆与他的家人、情人、好友之间的复杂相关，以及由此引发的一系列社会和家庭抵触……此处省略1000字' : None : None}关于宋朝出现的故事  查问结果：{:    :  : {:  :  : } {:  :  : } {:  :  : } : None : '水浒传，一本让人目迷五色的古典名著，故事内容丰盛得可以用来炒一大锅剧情泡面。整个故事出当初北宋时期，可以构想成一个现代的超级英雄联盟，但这些英雄不穿紧身衣，而是衣着现代汉服，横扫江湖，打击不公……此处省略1000字''《金瓶梅》是中国文学史上的一部关键小说，被以为是明代中期的作品，作者普通被以为是兰陵笑笑生。这部小说以宋代开封为背景，详细描画了客人公西门庆与他的家人、情人、好友之间的复杂相关，以及由此引发的一系列社会和家庭抵触……此处省略1000字''在中世纪空想的土地，被称为中土的中央，降生了一部平凡的故事——《指环王》。这部史诗般的作品，似乎莎士比亚之笔下的戏剧，充溢了权势的争斗、勇气的考验、忠实与背离的竞赛，以及对自在与爱的无尽谋求。\n\n噢，听吧，那悠远的号角在呼唤，就似乎命运之神在低语，引领咱们走向那个被称为“魔戒”的弱小而又可怕的东西……此处省略1000字' : None : None}吃完海鲜可以喝牛奶吗?  查问结果：{:      :  : {: } {: } {: } {: } {:  :  : } : None : '吃了海鲜后是不能再喝牛奶的，由于牛奶中含得有维生素C，假设海鲜喝牛奶一同服用会对人体形成必定的损伤''吃海鲜是不能同时喝牛奶吃水果，这个至少距离6小时以上才可以''吃海鲜是无法以吃柠檬的由于其中的维生素C会和海鲜中的矿物质构成砷''无法以，早晨喝牛奶不迷信''水浒传，一本让人目迷五色的古典名著，故事内容丰盛得可以用来炒一大锅剧情泡面。整个故事出当初北宋时期，可以构想成一个现代的超级英雄联盟，但这些英雄不穿紧身衣，而是衣着现代汉服，横扫江湖，打击不公……此处省略1000字' : None : None}

对比第一次性小模型测试的结果，咱们可以清楚觉失掉：

1.“OpenAI text-embedding-ada-002”模型的distances算进去都是小于1，但含意依然是“距离越小越相关”；

2.“大模型”基于冗长文本数据的推理相当准确，针对疑问3“吃完海鲜可以喝牛奶吗?”的推理结果可谓完美，相关于之前的“小模型”结果，“大模型”能准确的把“海鲜与柠檬”、“早晨喝牛奶”这类相关性较差数据的向量距离依次排开，并且能把“水浒传”这类相关性极差数据的向量距离清楚拉开。

3.“大模型”基于较长文本数据的推理在这个测试中都在首位命中了理想上最相关的结果，例如它能在疑问1“我想了解中国四小名著”的推理中把形容红楼梦的数据排在第1位以及疑问2“关于宋朝出现的故事”的推理中把形容水浒传的数据排在第1位。但也都有无余，例如它在疑问1“我想了解中国四小名著”的推理结果中把形容金瓶梅的数据排在第2位，依照知识应该水浒传才是四小名著之一；在疑问2“关于宋朝出现的故事”的推理结果中把形容指环王的数据排在第3位，而依照知识红楼梦似乎和中国、宋朝的相关性比指环王会更高一些。

上述的例子经常使用Python代码编写，当然也可以经常使用Java成功，Chroma也有相关的Java SDK可以经常使用。假设说Java是企业运行时代的原生言语，那么Python就是AI时代的原生言语，大少数AI名目的官网支持言语都是Python，并且相关于Java来说，Python的学习和运行愈加简便，倡导间接用起来。

基于上述繁难的测试证实咱们可以将相似OpenAI “text-embedding-ada-002”这样的大模型运行到实践的RAG消费中，理想上目前京东很多AI客户服务经常使用的向量嵌入模型正是OpenAI “text-embedding-ada-002”。鉴于text-embedding-ada-002这个模型是GTP3时代的产品，置信未来OpenAI推出基于GTP4的嵌入模型必定会愈加弱小精准。

而小模型关于本地化训练、垂直畛域RAG运行，特意是学习钻研AI技术是更繁难的。假设你不想编写代码，有一些网站也能提供良好的沙箱，供你学习、调试小型嵌入模型，这些模型不只限于文本，还包括图像、语音，甚至视频，国外的有“抱脸”，国际的有“魔搭”，都值得一试。

智能体（Agent）的概念、运行和集成

智能体的概念和开发思想

上方咱们提到可以应用RAG技术联合自有知识库对大模型启动增强，从而取得更准确、实时、丰盛的垂直内容或共性化结果。但这依然没有跳出内容生成（AIGC）的范围，假设你须要人工智能像一个“以终为始”的高效率员工一样自主选取各种工具、和各种不同系统沟通协同上班，直到交付最终结果，那么就须要了解“智能体”这个方案了。

智能体（Agent）技术是人工智能运行的一个外围概念，是指可以自主口头义务、作出决策，并在必定水平上模拟人类或其余智能实体行为的计算机程序或机器。目前智能体在仿真、游戏、客户服务以及智能化控制等多个畛域和运行中展现了渺小的后劲，从繁难的智能化脚本到复杂的决策支持系统，智能体在软件和配件系统中经过表演感知者、口头者、决策者或学习者等多种角色来成功义务。

关于智能体的通常依据可以参考宣布于2023年的论文 Plan-and-Solve Prompting: Improving Zero-Shot Chain-of-Thought Reasoning by Large Language Models（方案与处置提醒：经过大型言语模型改良零点思想链推理，原文：），文章关键提出了一种改良大型言语模型在零次学习环境下口头多步骤推理义务的方法，作者经过三个步骤来论证：第一步经过几个手工制造的逐渐推理示例（few-shot chain-of-thought prompting），证实大模型能够明白地生成推理步骤并提高其推理义务的准确性；第二步为了消弭手动制造示例的上班量，作者提出了零样本思想链方法（Zero-shot Chain-of-Thought），该方法将指标疑问申明与“让咱们一步步来思索”的疏导环节作为输入提醒给大模型；第三步，为了处置零样本思想链方法存在的“遗漏步骤”失误，作者提出了“先方案再求解（PS, Plan-and-Solve）”的提醒战略。

文章提出的“先方案再求解”原理是一些智能体产品设计开发的外围理想，其遵照以下几个步骤：

1.明白疑问：首先，须要明白疑问的外围内容和指标。即使疑问未知，也可以经过一些通用的启动语句疏导模型聚焦疑问，通用的提醒可以是：“让咱们首先了解疑问的外围并制订一个处置方案的方案。”

2.划分子义务：关于大局部复杂疑问，可以将其分解为更小的、更易于控制和处置的子义务。通用的提醒可以是：“接上去，依据这个方案分解疑问为子义务。”

3.制订详细方案：基于子义务，进一步细化出处置每个子义务的详细方案。可以经常使用相似于：“针对每个子义务，让咱们制订一个详细的处置方案或步骤。”的提醒。

4.口头并验证：激励模型依照方案口头，并在口头环节中测验每一步的正确性。可以用：“如今，依照咱们的处置方案方案逐渐口头，并审核每一步的结果能否合乎义务的预期。”的提醒来指点模型。

5.适时调整：假设在口头环节中发现疑问或许结果与预期不符，须要预备好调整方案的提醒，例如补充相似的提醒：“假设咱们发现任何步骤的结果不如预期，让咱们回忆并调整咱们的方案。”

6.总结答案：最后，激励模型汇总口头方案后的结果，给出最终的答案或处置方案，提醒可以是：“最后，综合咱们一切子义务处置方案口头的结果，总结出疑问答案或最终处置方案。”

举个例子

在2022年大模型浪潮迸发后不久，开源的智能体名目也跟着少量的涌现。从最早AutoGPT推出时的惊动，到目前MetaGPT的逐渐运行，我经过自己的跟踪测试能深切的体会到这项技术从“一言难尽”到日趋成熟，在工业消费中的经常使用指日可期。

AutoGPT和MetaGPT都是十分有前景的开源智能体产品，值得学习和自创。AutoGPT的运转或许会费事一些，倡导在Docker环境下跑效果会更好，参考官网文档：；MetaGPT可以比拟繁难的在Python环境下运转，而且有中武官网文档：。

假设你不想编写代码，也极速体验智能体产品，经常使用Tavily会比拟繁难。Tavily的口号是“对耗时的钻研说再见”——宣称可以协助你极速洞察和片面钻研一个课题，从准确搜集消息源到整顿钻研成绩，并且将一切上班都集中在一个平台上成功。商业形式是对API调用次数及调用其高品质实时知识库增强推理（RAG）付费，值得自创。

Tavily可以提供一个沙箱（APIPlayground），供用户测试其“针对高品质实时知识优化的大模型增强检索”API，沙箱只放开通用知识库（垂直的高品质实时知识库须要付费才干经常使用），沙箱的测试结果会前往互联网上的相关知识集。我提出了一个极富应战性的课题启动测试，效果如下图：

Tavily还提供了一个钻研助手（Research Assistant）的Web运行，供用户在线经常使用智能体产品，须要用户经常使用自己的OpenAI API Key调用GPT4服务，支持“深度钻研”，也就是要消耗更多的算力和时期（钱）取得更高品质的结果。我提出了一个很间接很适用的课题启动测试，消耗了大概2元多人民币的API调用费，取得了一份大概1500字的报告，环节如下图：

前面我继续针对这个课题测试了几轮，觉得还是有一些正确的剖析和树立性的结果，但也存在比拟多的“幻觉”，须要用户自行鉴别，不完美，有优化的空间。有条件的话可以试用一下：。

集成大模型、RAG和智能体的方法和场景

经过前面的引见，咱们能够了解大模型、RAG和智能体这些技术和理念的后劲在于相互联合，构成更为弱小和灵敏的AI系统——即联合大模型的深档次言语了解和生成才干、RAG的垂直和实时的消息检索才干以及智能体的决策和口头才干。

这种集成可以经过多种方式成功，例如，经过两边件来协调不同技术的交互，或许经过在一个一致的框架下间接整合外围技术。目前，后者是比拟干流的方式，由于LangChain（）这个开源的AI开发门面和编排框架用来做这件事十分低劣。LangChain提供了一个框架，准许开发者将大模型“转化”为能够口头一系列举措的智能体，智能体应用大模型作为“推理引擎”，来灵活确实定要采取哪些操作、经常使用哪些工具以及按什么顺序口头。LangChain框架关键能够提供Chain和Agent工具来协助你构建智能体，Chain能够最大水平的繁难开发者将不同的操作和处置步骤以链式的方式组分解AI流程；Agent工具由Agent类型、AgentExecutor、Tools（支持的工具列表：）这几个局部构成，协助开发者将实时消息交互、外部数据失掉、三方系统调用等配置集成到“链”中以裁减或改善AI才干。例如：经过Google搜查失掉实时消息、从OpenWeatherMap失掉天气消息，以及从Wikipedia失掉百科知识。可以说，假设开发AI运行，LangChain无法或缺。（参考资料：）

目前，曾经有一些比拟典型的行业运行方案：

案例1：智能客服系统。在一个集成了大模型、RAG和智能体的智能客服系统中，大模型可用于了解用户的查问和生成人造言语回复，RAG技术可用于从企业的数据库和知识库中检索准确的消息以支持回复，而智能体则担任控制对话流程、处置事务性义务和口头复杂的用户恳求。这种集成使得客服系统能够提供更准确、更兽性化的服务，同时减轻人工客服的累赘。

案例2：共性化教育平台。在共性化教育平台的例子中，大模型可以依据在校生的学习进展和偏好生成定制的学习资料和测试，RAG技术可以从宽泛的教育资源中检索相关消息以丰盛教学内容，而智能体可以依据在校生的反应和学习功效调整教学战略和内容。这种集成不只能够为在校生提供愈加共性化的学习体验，还能够协助老师更好天文解在校生的需求和提高。

案例3：复杂决策支持系统。集成大模型、RAG和智能体的复杂决策支持系统能够在金融、医疗和科研等畛域提供弱小的支持。在这种系统中，大模型用于处置和生成言语消息，RAG技术用于从少量数据中检索相关消息和案例，智能体则担任综合这些消息，构成决策倡导。这种集成系统能够处置复杂的查问，提供基于数据的决策支持。

针对供应链物流畛域经过集成大模型、RAG和智能体技术，可以从如下几个业务系统探求打破点：

1.仓储控制（WMS）：联合RAG技术和智能体，系统能够实时从供应商数据库、仓库库存记载和开售数据中检索关键消息，智能调整库存水平，缩小库存积压和缺货危险。

2.运输控制（TMS）：经过剖析天文位置数据、运输老本和时期要求，智能体可以布局最优的货物配送路途和调度方案。这一环节会应用大模型来处置复杂的逻辑和解放条件，以确保高效且老本效益的配送。

3.供应链开售与运营布局（S&OP）：应用大模型处置历史开售数据、市场趋向和用户反应，生成精准的需求预测报告。智能体能够学习并顺应市场变动，实时调整预测模型，提高预测的准确性。

未来展望与应战

关于未来，可以预感，AI的开发和运行会面临诸多的机会与疑问，诸如愈加深度的畛域知识融合、数据隐衷和安保性等等。但最关键的趋向必定是未来的AI系统将具有更强的自顺应学习才干并跳出虚构环球，正如2023年黄仁勋提到人工智能的下一波浪潮是“具身智能（Embodied AI）”，即AI不只能够了解和处置消息，还能够在物理环球中口头义务和作出反响。因此，智能体（Agent）在软件畛域会极速的开展，当其足够成熟时，驱动配件的智能体，即具身智能的规模化运即将是水到渠成的事件。随之而来的，AI伦理疑问必定会遭到越来越多的应战：AI运行决策环节的透明度和可解释性、AI决策结果的成见不偏心甚至歧视、人类伦理准则能否失掉遵守等，2024年春节时期和生存在欧洲的同窗交换得悉，目前一些西方国度曾经在展开一些“反人工智能（AntiAI）”的静止和钻研，但干流思想并不是推戴人工智能的开展，而是树立人工智能控制框架和开发监管技术（例如区分AI生成的内容和人类生成的内容），以确保人工智能的开展优先思索人类福祉、伦理起因和安保（参考资料：）。

另外AI技术开展与社会开展的谐和相融的疑问也十分值得思索，如何防止AI形成的技术性失业这个疑问，对咱们软件开发者而言显得特意关键。2024年3月在央视《对话》节目上，李彦宏表示，“不会存在程序员这种职业了，由于只需会谈话，人人都会具有程序员的才干……未来的编程言语只会剩下两种，一种叫做英文，一种叫做中文”。回忆20年前的软件开发行业，除了测试，诸如需求剖析、画原型、网页开发、桌面开发、后盾服务开发，甚至界面设计（美工兼职辅佐平面设计）都是由程序员来做，简直一得过后的“大厂”皆是如此，起初随着技术的演进和社会的开展，不只编程开发这个行当分红了前端开发、后端开发、客户端开发、大数据开发、算法开发等诸多工种，连“美工”都分化成了视觉、交互、用研等专业畛域，那么，未来在AI技术的开展下，这些角色的分工会从新兼并，甚至不会存在了么？

或许会出现如下的趋向：

1.必定会提高效率和发明力。AIGC 可以大大提高设计人员和开发人员的效率，咱们很多团队在2023年终就开局经常使用Midjourney辅佐设计或经常使用JoyCoder和GitHub Copilot辅佐编码，效果引人瞩目。可以预感，在产品设计或代码生成等探求性和发明性阶段，经过AI智能体极速生成各种处置方案并将概念转化为可视化表白或代码，会变得越来越方便并越来越具有实践价值。

2.开发者的角色或许调演化。开发者角色分工的界限会变得越来越含糊，全新的更具协作性和增强型的软件开出现命周期会出现。未来的开发者和设计师会缩小用于日常编码或设计，甚至文档撰写的时期，而更多的时期用于明白智能体等AI工具的指标、解释人工智能生成的处置方案，以及将这些处置方案集成到多种不同的系统架构中。开发者的角色或许调演化为承当更多监视和控制的职能，以确保AI生成的设计和代码合乎业务指标以及人类价值观。

3.软件开发这个行业会“独裁化”。随着 AIGC 工具变得愈加易用和弱小，咱们或许会看到越来越多没有传统设计和编码技艺的人也可以动员或介入软件开发。这将使软件开发这个行业介入的业务畛域愈加多样化，数字化运行的范围愈加宽泛。

（参考资料：）

关注微信

上一篇：OpenAI奥特曼最新对话将很快进入自动体阶段；OpenA

下一篇：私有云大迁徙从VMware到OpenStack

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：http://www.duobeib.com/diannaowangluoweixiu/5020.html

LLM 从大模型 RAG 的运行 Agent 到智能体检索增强生成

引言

大模型（LLM）的概念与工程化通常

Chat（对话）

GPTs（插件）

API（放开接口）

检索增强生成（RAG）技术概述和运行

什么是检索增强生成

为什么是向量数据库

举个例子

智能体（Agent）的概念、运行和集成

智能体的概念和开发思想

举个例子

集成大模型、RAG和智能体的方法和场景

未来展望与应战

猜你喜欢

热门标签

随便看看

TCP发送窗口接纳窗口以及其上班原理

I 如何发现 PostgreSQL 和中那些消耗 CPU

如何改良DevOps上班流

安保无大事安保防范从Nginx性能做起程序员安保规范

斯坦福学者提出Edu

热门资讯

阅读排行

AI的下一个拐点华为云图引擎何以煊赫一时

微软从独角兽到弃子日活百万的大模型独角兽！3位开创人挖走2位还有生路孵化新AI部门！ToC运

2011 一年一百美元的企业数据中心 vForum

最小化的递归神经网络RNN为Transformer提供了极速高效的代替方案

u盘电脑不识别了如何修复电脑不能识别u盘怎么解决

关注我们

LLM 从大模型 RAG 的运行 Agent 到智能体 检索增强生成

引言

大模型（LLM）的概念与工程化通常

Chat（对话）

GPTs（插件）

API（放开接口）

检索增强生成（RAG）技术概述和运行

什么是检索增强生成

为什么是向量数据库

举个例子

智能体（Agent）的概念、运行和集成

智能体的概念和开发思想

举个例子

集成大模型、RAG和智能体的方法和场景

未来展望与应战

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号

LLM 从大模型 RAG 的运行 Agent 到智能体检索增强生成