阿里达摩院最新多模态大模型引见 多项图文义务取得SOTA成果

  • 电脑网络维修
  • 2024-11-15

这篇文章给大家引见一下阿里宣布的多模态大模型上班mPLUG-Owl,共2篇文章,建设在前序图像表征对齐预训练大言语模型的思绪,提出了不同的参数训练模式、多模态解耦映射等优化方法,在多项义务取得了SOTA成果。

关系论文:

mPLUG-Owl Language Models with Multimodality

mPLUG-Owl2: Revolutionizing Multi-modal Large Language Model with Modality Collaboration

外围理路

多模态大模型宿愿构建一个能同时处置文本、图像等不同模态消息的数据,处置复杂的图文推理等多模态义务。在NLP中的大言语模型逐渐兴起后,多模态模型的一个关键构建思绪为: 以预训练的大言语模型LLM为基座,经过ViT等Vision Encoder将图像映射成表征,和文本token embedding拼接到一同输入大模型,结合预训练、Instruction Tuning等方法启动训练

这种多模态大模型的建模方法,经过2年的钻研,逐渐完善起来。阿里的mPLUG-Owl上班,就建设在这个思绪基础之上。

基础模型结构

第一版本的mPLUG-Owl外围结构如下图,关键包括 一个预训练的LLM、一个图像编码器、一个视觉形象器 3个局部。

其中的外围是,如何将图像消息启动比拟好的处置,和LLM的表征空间对齐。关于图像消息,对图像分patch后,驳回预训练ViT启动处置,生成每个patch的embedding。因为图像中蕴含背景等噪声消息,且维度较高,间接将原始图像消息输入言语模型难以学习且复杂度高。因此, 文中引入了Visual Abstractor模块 ,对基础的图像特色启动形象。

Visual Abstractor由cross attention导致,经常使用一些可学习的token embedding和原始图像的patch embedding启动cross attention计算,token的数量远小于patch的数量,选用性的将patch embedding的关键消息会聚到可学习token上。

Visual Abstractor输入多个视觉token embedding,和文本的token embedding拼接到一同,输入到预训练的LLM中。

训练模式

视觉特色对齐言语模型的多模态大模型,普通驳回两个阶段启动训练。 在第一个阶段,经常使用基础的图文数据构建生成式义务,第二阶段应用Instruction Tuning的模式让模型进一步优化复杂多模态了解才干

在之前的很多上班中,都驳回这种两阶段的训练,然而降级的参数不同。比如MiniGPT4只降级图像表征到LLM输入的MLP映射网络,其余方法也对Visual Encoder启动了解冻。为了优化多模态的联结学习才干,本文在预训练阶段, 关上Visual Encoder的参数降级,强化模型的多模态训练环节 。在第二阶段,解冻Visual Encoder参数,finetune言语模型参数。

V2版本优化

在近期阿里颁布的mPLUG-Owl2上班中,关键对多模态的对齐启动了优化。

这里的外围优化点是对言语模型的self-attention机制启动了优化,关于两个模态的表征,区分经常使用独立layer normalization缩放到相反scale后,经常使用两组不同的MLP网络区分启动两个模态表征到同空间的映射。

相比之前共享MLP的映射方法, 这种独立映射的方法保管了两个模态共性化的消息,又能映射到相反空间 。在attention后再区分接各自模态的layer normalization生成最终预测结果。

在常识星球中,也为大家整顿了这种视觉对齐LLM的多模态大模型历史上班,感兴味的同窗可以加退学习。

试验成果

文中对比了mPLUG-Owl在各项义务上和MiniGPT、BLIP、LLaVA等多模态大模型的成果,均取得了SOTA成果,验证了mPLUG-Owl的多模态了解才干。

本文转载自​​,作者:​​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5744.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号