Chunking技巧 告别传统的文档切块!JinaAI提出Late

  • 电脑网络维修
  • 2024-11-15

当天给大家分享JinaAI提出的一个新的技巧。

反常在解决大规模数据建索引的时刻,普通咱们须要先对文档启动分块,建设向量索引。 而这个分块大小,设置的都是比拟短的,比如512。 一方面是早期bert的解决长度的限度,另一个方面是假设文本太长,蕴含的消息就越多,那么或者比拟难用一个向量来表征进去。

关于前者,假设继续关注向量模型的同窗可以发现,无论是开源的BGE系列,还是闭源的API,都在往一个较长的高低文靠齐(比如说8192)。那这就有一些矛盾了,假设工业界只有要512的高低文的向量模型,为什么还要往更长的8192模型开展呢?

关于传统的分块,相似于固定长度的分块。带来的一个比拟大的疑问是,高低文缺失。就像下图一样,一个句子的主语在段落扫尾,前面的段落/句子中,有一些代词比如 It's, The city等等来示意主语。这种状况下确实主语的句子基本上就变得比拟断章取义了~

与先分块后向量化不同,JinaAI最新提出的“Late Chunking”方法是一个同样的步骤,首先将整个文本或尽或者多的文本输入到嵌入模型中。在输入层会为每个token生成一个向量示意,其中蕴含整个文本的文本消息。而后咱们可以依照须要的块大小对对向量启动聚合获取每个chunk的embedding。这样的长处是,充沛应用长高低文模型的长处,同时又不会让每个块的消息过多,搅扰向量表征。

在测试中,在一切状况下,与惯例的分块相比,Late Chunking提高了召回ndcg@10。在某些状况下,它的功能也优于将整个文档编码为单个嵌入。并且,文档越长,Late Chunking战略就越有效。

开源的试验代码:​ ​​ ​

本文转载自​​,作者:

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5721.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号