多模态视觉

  • 电脑网络维修
  • 2024-11-15

本文回忆了多模态LLM (视觉-言语模型) 近一年来的模型架构演进,对其中有代表性的上班启动了精炼总结,截止2024.04,继续更新ing...

A Survey on Multimodal Large Language Models(arxiv.org/abs/2306.13549)Awesome-Multimodal-Large-Language-Models(github.com/BradyFU/Awesome-Multimodal-Large-Language-Models)

这篇综述一张图总结了多模态LLM的典型架构:

【2022.01颁布】

一致视觉-言语了解和生成,经常使用captioner+filter高效应用互联网有噪数据

模型架构:

BLIP的bootstrapping训练环节:

【2023.01颁布】

经常使用相对轻量的Q-Former衔接视觉-言语模态,经过两阶段训练:第1阶段基于冻住的视觉编码器,第2阶段基于冻住的LLM

第1阶段 :雷同优化ITC/ITM/LM loss,经常使用不同的self-attention mask,query和text端共享self-attention参数,使得可学习的query embedding提取与text语义最关系的视觉表征;经常使用BERT-base初始化,32个768维的query作为消息瓶颈

第2阶段 :可基于decoder-only/encoder-decoder LLM启动适配,FC层对齐维度

【2023.04颁布】

经常使用图片的dense captions和bounding boxes作为prompt,可以生成对话、细节形容、复杂推理等指令

stage1. 预训练特色对齐:冻住vision encoder和LLM,只训练projection,学习一个兼容的visual tokenizer

stage2. 端到端微调:冻住vision encoder,在单轮/多轮对话数据上微调projection和LLM

【2023.04颁布】

stage1. 预训练:经常使用image-text pair微调linear projection layer,vision encoder和LLM坚持冻住

stage2. 指令微调:指令格局为:###Human: <Img><ImageFeature></Img><Instruction>###Assistant:

InstructBLIP

【2023.05颁布】

stage1. 预训练:BLIP-2(经常使用image-text pairs启动两阶段训练)

stage2. 指令微调:只微调instruction-aware Q-former,冻住vision encoder和LLM

允许FlanT5(encoder-decoder)和Vicuna(decoder-only)

Qwen-VL 【2023.08颁布】

允许中英双语、多图像输入

Qwen-7B + OpenCLIP ViT-bigG,输入图像间接resize到视觉编码器输入

位置感知的VL adapter:经常使用基于Q-former的单层的cross-attention,将图像特色维度压

缩到256,在query-key pairs中引入2D相对位置编码增强位置消息

图像输入:<img>256-dim图像特色</img>

bounding box输入输入:<box>(X_topleft, Y_topleft), (X_bottomright, Y_bottomright)</box>, <ref>…</ref>标志box所指内容

三阶段训练:

stage1. 预训练:基于大规模、弱标注、网络爬取的图像-文本对,输入分辨率224x224,冻住LLM,训练ViT和Q-former,重要目标是模态对齐

stage2. 多义务预训练:基于7种下游视觉-言语了解义务的高品质、细粒度标注数据训练,输入分辨率448x448,图像/文本数据交织,训练整个模型

stage3. 指令微调:优化指令遵照和多轮对话才干,冻住ViT,训练LLM和Q-former

Qwen-VL-Plus和Qwen-VL-Max优化了视觉推理才干、图像细节的识别/提取/剖析才干(尤其是文本导向的义务)、允许高分辨率和极其纵横比的输入图像;在局部中文场景超越了GPT-4V和Gemini

InternLM-XComposer

【2023.09颁布】

交织图文导致:智能在输入文本中拔出适合的图片

EVA-CLIP ViT + InternLM-7B + Q-former (将图像特色紧缩到64个embedding)

两阶段训练:

stage1. 预训练:冻住ViT,训练LLM和Q-former

stage2. 监视微调:包含多义务训练和指令微调,冻住ViT和LLM,训练Q-former,对LLM启动LoRA微调,增强指令遵照和图文混排才干

【2023.10颁布】

模型架构和训练环节便捷,易于scaling;允许任用意像分辨率;推理速度快

decoder-only的transformer,没有专门的图像编码器;image patch间接线性映射到transformer第一层

【2023.10颁布】

仍经常使用MLP作为模态衔接,突出了训练的数据高效性

【2023.11颁布】

深度视觉-言语模态融合,而不影响LLM原有的言语才干:冻住LLM和ViT,在attention和FFN层训练一份视觉专家模块

【2023.12颁布】

针对GUI场景的多模态了解和导引,经常使用高分辨率-低分辨率双编码器,允许1120x1120的屏幕输入

高分辨率分指经常使用更轻量的ViT,基于cross-attention将高分辨率图像特色与LLM每层启动融合

【2023.12颁布】

探求了视觉-言语模型训练的设计选用:

LLaVA-Next

【2024.01颁布】

相关于LLaVA-1.5,坚持了极简的设计和数据高效性:

灵活高分辨率:视觉编码器允许336x336的图像输入,关于672x672的图像,依照{2,2}的grid split成4个图像patch过encoder,downsample到336x336也过encoder,特色拼接作为visual tokens输入到LLM中

搜集高品质用户数据,包含实在场景中反映用户更宽泛用意的指令数据,应用GPT-4V启动数据结构

多模态文档/图表数据,增强文档OCR和图表了解才干

InternLM-XComposer2

【2024.01颁布】

提出了新的模态对齐方法partial LoRA:只在image token上减少LoRA参数,保障预训练言语常识的完整性,这样一个更轻量的视觉编码器雷同有效

OpenAI CLIP ViT-L/14 + InternLM2-7B + partial LoRA (rank=256)

两阶段训练:

stage1. 预训练:冻住LLM,微调ViT和partial LoRA模块,包含通用语义对齐(了解图像基本内容)、环球常识对齐(启动复杂的常识推理)、视觉才干增强(OCR、物体定位、图表了解)

stage2. 监视微调:微调整个模型,包含多义务训练、自在方式图文排布

InternLM-XComposer2-4KHD

2024.04颁布了4KHD版本:

允许灵活分辨率(336px → 4K (3840x1600)):改良了patch division范式,坚持训练图像原有的纵横比,智能变动patch数目,基于336x336的ViT性能layout

灵活图像划分:将输入图像resize and pad到336的整数倍宽高

结合图像的global和local视角:global视角由输入间接resize到336x336,经常使用sep token分隔两种视角的token

图像2D结构的换行符:可学习的\n token分隔图像token行

Mini-Gemini

【2024.03颁布】

经常使用双视觉编码器提取低分辨率embedding作为query,高分辨率特色区域作为key/value,两者之间做cross-attention,输入开掘的tokens作为prompt前缀,输入到LLM做推理,外接图像解码器生成图像(SDXL)

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/6183.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号