RAG技术功能优化之文档分块战略打算

  • 电脑网络维修
  • 2024-11-15

在人工智能畛域,尤其是大型言语模型(LLM)的运行中,检索增强生成(Retrieval-Augmented Generation,RAG)技术正变得越来越关键。RAG技术经过联合检索和生成才干,为模型提供了丰盛的外部常识源,从而生成更准确、更合乎高低文的答案。本文将深化讨论RAG技术中的文档分块战略,这些战略关于提高检索效率和生成品质具备选择性作用。

一、文档分块战略的关键性

文档分块是RAG技术中的关键步骤,它影响着模型对消息的检索和了解。正当的分块战略可以:

二、固定大小分块

固定大小分块是一种便捷且计算老本低的方法,适用于对文本启动平均划分,便于模型处置。

外围长处:

示例代码:

from langchain.text_splitter import CharacterTextSplittertext_splitter = CharacterTextSplitter.from_tiktoken_encoder(encoding="cl100k_base",chunk_size=100,chunk_overlap=0)texts = text_splitter.split_text(state_of_the_union)

三、基于结构的分块

基于结构的分块方法应用文档的固有结构,如HTML或Markdown中的题目和段落,以坚持内容的逻辑性和完整性。

外围长处:

示例代码:

from langchain.text_splitter import HTMLHeaderTextSplitterhtml_string = "<html>...</html>"headers_to_split_on = [("h1", "Header 1"), ("h2", "Header 2"), ("h3", "Header 3")]html_splitter = HTMLHeaderTextSplitter(headers_to_split_notallow=headers_to_split_on)html_header_splits = html_splitter.split_text(html_string)

四、基于语义的分块

基于语义的分块战略关注于文本的语义独立性,确保每个分块蕴含完整的语义消息。可以经过标点符号、人造段落或经常使用NLTK、Spacy等工具成功。

外围长处:

示例代码:

from langchain_experimental.text_splitter import SemanticChunkerfrom langchain.embeddings import OpenAIEmbeddingstext_splitter = SemanticChunker(OpenAIEmbeddings())docs = text_splitter.create_documents([state_of_the_union], breakpoint_threshold_type="percentile")print(docs[0].page_content)

五、递归分块

递归分块是一种灵活的分块方法,可以经常使用一组分隔符,以分层和迭代的模式将文本划分为更小的块,灵活顺应不同类型的文本数据。

外围长处:

示例代码:

from langchain.text_splitter import RecursiveCharacterTextSplittertext_splitter = RecursiveCharacterTextSplitter(# 指定每个文本块(chunk)的大小为100个字符chunk_size=100,# 设置相邻文本块之间的堆叠字符数为20chunk_overlap=20,# 指定用于测量文本长度的函数length_function=len,# 不经常使用正则表白式作为分隔符来宰割文本is_separator_regex=False,)texts = text_splitter.create_documents([state_of_the_union])print(texts[0])print(texts[1])

总结:

选用适宜的文档分块战略关于优化RAG技术的成果至关关键。不同的分块战略适用于不同的场景,可以依据运行需求和数据个性选用繁多战略或组合经常使用多种战略。经过正当的分块,可以增强RAG技术联合检索和生成才干,为大模型言语提供更准确、高效的答案。

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5906.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号