多模态与伪多模态大模型

  • 电脑网络维修
  • 2024-11-15

“透过现象看实质,才是最应该做的选用”

对大模型了解的人应该知道,大模型是由于openAI的GPT模型爆火的,当然大模型的开展也是经过多年的开展才有了当天的境地。

在之前的文章中也引见过,大模型的全程是大规模预训练言语模型的简称,也就是说大模型刚开局是在言语处置畛域大放异彩的。

因此,可以说大模型是深度学习,也就是神经网络模型与人造言语处置相联合而发生的一种技术。

而随着大模型在人造言语处置畛域的迸发,一些技术人员开局把大模型运行到图片处置,视频处置等畛域,起初缓缓就降生了处置各种模态数据的模型。

到当天,多模态成为了干流。

多模态大模型

什么是多模态?

模态值得是数据类型,比如文本,图片,视频等;而多模态就是指能够同时处置文本,图片,视频等多种模态数据的模型。

便捷来说,多模态大模型就像一团体一样,他既会写字认字,也会绘画参观画,他即能经过拍视频的模式表白自己;也能看懂他人视频所表白的思维。

而多模态大模型就是这样,它既能看懂他人的文字,也能看懂他人的视频,也可以把他人的视频用言语表白进去,这就是多模态大模型。

这种成功模式,须要处置很多技术难点,比如说文本和视频或图片内容等多种模态数据之间的融合,模态之间的数据差异疑问,数据对齐与分歧性疑问等。

这种成功多模态大模型的模式,叫做真多模态大模型。

但成功多模态只要这种模式吗?

其实,还有另一种成功多模态的模式或许说方法;那就是在多个处置不同模态数据的大模型之上,构建一个虚构的“多模态大模型”,我叫他伪多模态大模型。

便捷来说就是实在的多模态大模型就相当于一个无所不能的人,天文天文,物理化学,前知五百年后晓五百世;而伪多模态大模型,就相当于给阿斗配一个顶级智囊团,只管阿斗什么都疑问,但他可以问啊。

就比如说,用户输入一段文字,这时前置模块就可以识别出这是文本模块,那么它就可以问其它的大模型,你们谁能处置文本,而后文本模型就会说我我我。

而假设用户输入一段视频,那么前置模块就可以找一个视频处置的大模型,最后再经事先置的转化模块,把输入数据转化为用户须要的格局。

这就是伪多模态,很多初创企业干的就是这种产品,他们经过集成多种类型的模型,来成功对多种模态数据的处置。

当然,这种伪多模态模型只管在外人看来都差不多,但咱们要知道它们经常使用的是齐全不同的技术;并且,伪多模态大模型只管能够处置一些便捷义务,但在复杂义务中或许就没有真正的多模态模型体现得好了。

很多物品假设不能透过表象看实质,就会造成很大的认知偏向;比如说,咱们都认为语音处置的大模型,它是间接处置语音格局的数据,理想上是会有一个前置层,先把语音文件转化为文本格局,而后再让大模型处置。

等大模型处置完之后,再把文本格局的数据转换为语音数据输入,前者技术叫ASR,后者叫TTS。

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/6190.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号