如何选用适宜的 大模型运行落地 模型 Embedding

  • 电脑网络维修
  • 2024-11-15

0、背景落地

在生成式人工智能(GenAI)畛域,检索增强生成(RAG)作为一种战略锋芒毕露,它经过集成外部数据来扩大像 ChatGPT 这样的大型言语模型(LLM)的现有常识库。

RAG 系统外围触及三种关键的人工智能模型组件:嵌入(Embedding)模型担任将消息转化为数学向量,重排名(Reranker)模型则用于优化搜索结果,而弱小的基础言语模型确保了丰盛的语境了解和生成。

本篇文章旨在指点您依据数据个性及指标畛域,比如:金融专业,来挑选最适宜的嵌入模型,从而最大化 RAG 系统的效劳与准确性。

1、文本数据:MTEB 排行榜

HuggingFace 推出的 MTEB leaderboard 是一个综合性的文本嵌入模型比拟平台,让您可以一览各模型的综合性能表现。

为了满足向量搜索的需求,倡导优先关注“Retrieval Average”这一列,并按降序陈列,以识别在检索义务中表现最优的模型。在此基础上,寻觅那些内存占用小、效率高的佼佼者。

在挑选现实模型时,您不只可依据检索性能排序,还能够依据特定条件进一步挑选:

值得留意的是,MTEB上的排名或者因新地下的训练数据而有所偏向,某些模型的评分或者存在虚高现象。因此,参考 HuggingFace 的官网博客,学习如何别离模型排名的实在牢靠性显得尤为关键。在访问每个模型的“模型卡片”页面时,以下几个步骤至关关键:

基于上述考量,我倡导经常使用 Snowflake 新推出的“snowflake-arctic-embed-1”模型。该模型不只在排名上表现抢眼,而且以其较小的体积适宜在有限资源的设施上运转,此外,模型卡片提供的博客和论文链接也参与了其透明度和可信度。

2、图像数据:ResNet50

假设您宿愿查找与某张图片格调或内容相似的其余图片,比如:搜索更多对于苏格兰折耳猫的图像资料,一种方法是上行一张该种类猫的照片,并应用图像搜索引擎去开掘相似图片。

ResNet50 作为一种宽泛采用的卷积神经网络(CNN)模型,自2年微软基于 ImageNet 数据集的训练成绩以来,便成为了图像识别畛域的基石之一。

相似地,在面对视频搜索需求时,ResNet50 能够施展作用,经过将视频合成成一系列静态帧,对每一帧运行模型以生成对应的嵌入向量。随后,基于这些向量启动相似性比对,系统能够甄选出与查问视频最为凑近的视频内容,从而为用户提供高度婚配的搜索结果。

3、音频数据:PANNs

就似乎图像搜索一样,您也能够依据提供的音频片段去探寻相似的音频内容。

PANNs(预训练音频神经网络)作为一种干流的音频检索 Embedding 模型,其长处在于它基于宏大的音频资料库启动了预先训练,对此在音频分类与标签调配等义务上展现出出色的才干。

4、多模态图像与文本数据:SigLIP 或 Unum

近年来,一系列旨在对文本、图像、音频及视频等多种非结构化数据启动综合训练的 Embedding 模型应运而生。这些翻新模型能够在一致的向量空间框架下,有效掌握并表白不同外形的非结构数据所包括的深层语义消息。

多模态 Embedding 技术的开展,使得跨畛域的运行如文本导向的图像检索、图像内容的智能生成形容,乃至图像间的相似性搜索成为或者,极大地拓宽了人工智能的运行范围。

2021年,OpenAI 颁布的 CLIP 作为 Embedding模型的模范,开拓了新畛域,虽然其定制化微调的需求参与了经常使用的复杂度。这一应战随后在2024年迎来了转折,谷歌推出了SigLIP(Sigmoidal-CLIP),该模型仰仗在 zero-shot prompt义务上的出色表现,清楚降落了部署难度,优化了用户体验。

与此同时,轻量级的小型LLM(言语模型)日益遭到青眼。它们的吸引力在于能够解脱对上流云计算资源的依赖,轻松实如今团体笔记本上的运转。这些“小而美”的模型,因内存占用低、照应速度快以及解决效率高的特点,正逐渐扭转着 AI 运行的格式。Unum 等平台更是提供了集成多模态配置的小型 Embedding 模型,进一步推进了 AI 技术的遍及与运行方便性。

5、多模态文本、音频、视频数据

多模态的文本-音频 RAG(检索增强的生成)系统宽泛采用了多模态生成型 LLMs。此环节启始于音频消息的文本化转换,发明音频-文本配对,继而将文本内容编码为 Embedding 方式的向量,以便应用 RAG 机制启动惯例的文本查问。最终阶段触及将检索到的文本逆向关联回相应的音频片段。

OpenAI 的 Whisper 技术在这方面起到了桥接作用,它能够成功语音到文本的高效转写。同样地,OpenAI 还开发了 Text-to-Speech(TTS)模型,成功了从文本到语音的逆向转换,丰盛了多模态交互的闭环。

至于多模态文本-视频的 RAG 运行,则采取了相似的战略,先将复杂的视频内容简化为可解决的文本形容,经 Embedding 转化后口头文本查问,最后输入关系的视频片段作为检索成绩。

OpenAI 的翻新工具 Sora,则在文本到视频的生成畛域展现了特殊才干,与 Dall-E 在图像生成畛域的成就相似,Sora仅需用户输入文本揭示,即可借助弱小的 LLM 生成对应的视频内容。Sora的灵敏性不只限于文本,还能基于静态图像或现有视频启动视频的衍生创作,进一步拓展了多模态内容生成的边界。

Milvus目前曾经集成了干流的Embedding模型,体验链接:​​ ​​ ​

原文链接:​​​ ​​ ​​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:http://www.duobeib.com/diannaowangluoweixiu/5770.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号