多模态视觉

电脑网络维修
2024-11-15

本文回忆了多模态LLM (视觉-言语模型) 近一年来的模型架构演进，对其中有代表性的上班启动了精炼总结，截止2024.04，继续更新ing...

A Survey on Multimodal Large Language Models（arxiv.org/abs/2306.13549）Awesome-Multimodal-Large-Language-Models（github.com/BradyFU/Awesome-Multimodal-Large-Language-Models）

这篇综述一张图总结了多模态LLM的典型架构：

【2022.01颁布】

一致视觉-言语了解和生成，经常使用captioner+filter高效应用互联网有噪数据

模型架构：

BLIP的bootstrapping训练环节：

【2023.01颁布】

经常使用相对轻量的Q-Former衔接视觉-言语模态，经过两阶段训练：第1阶段基于冻住的视觉编码器，第2阶段基于冻住的LLM

第1阶段 ：雷同优化ITC/ITM/LM loss，经常使用不同的self-attention mask，query和text端共享self-attention参数，使得可学习的query embedding提取与text语义最关系的视觉表征；经常使用BERT-base初始化，32个768维的query作为消息瓶颈

第2阶段 ：可基于decoder-only/encoder-decoder LLM启动适配，FC层对齐维度

【2023.04颁布】

经常使用图片的dense captions和bounding boxes作为prompt，可以生成对话、细节形容、复杂推理等指令

stage1. 预训练特色对齐：冻住vision encoder和LLM，只训练projection，学习一个兼容的visual tokenizer

stage2. 端到端微调：冻住vision encoder，在单轮/多轮对话数据上微调projection和LLM

【2023.04颁布】

stage1. 预训练：经常使用image-text pair微调linear projection layer，vision encoder和LLM坚持冻住

stage2. 指令微调：指令格局为：###Human: <Img><ImageFeature></Img><Instruction>###Assistant:

InstructBLIP

【2023.05颁布】

stage1. 预训练：BLIP-2（经常使用image-text pairs启动两阶段训练）

stage2. 指令微调：只微调instruction-aware Q-former，冻住vision encoder和LLM

允许FlanT5(encoder-decoder)和Vicuna(decoder-only)

Qwen-VL 【2023.08颁布】

允许中英双语、多图像输入

Qwen-7B + OpenCLIP ViT-bigG，输入图像间接resize到视觉编码器输入

位置感知的VL adapter：经常使用基于Q-former的单层的cross-attention，将图像特色维度压

缩到256，在query-key pairs中引入2D相对位置编码增强位置消息

图像输入：<img>256-dim图像特色</img>

bounding box输入输入：<box>(X_topleft, Y_topleft), (X_bottomright, Y_bottomright)</box>, <ref>…</ref>标志box所指内容

三阶段训练：

stage1. 预训练：基于大规模、弱标注、网络爬取的图像-文本对，输入分辨率224x224，冻住LLM，训练ViT和Q-former，重要目标是模态对齐

stage2. 多义务预训练：基于7种下游视觉-言语了解义务的高品质、细粒度标注数据训练，输入分辨率448x448，图像/文本数据交织，训练整个模型

stage3. 指令微调：优化指令遵照和多轮对话才干，冻住ViT，训练LLM和Q-former

Qwen-VL-Plus和Qwen-VL-Max优化了视觉推理才干、图像细节的识别/提取/剖析才干（尤其是文本导向的义务）、允许高分辨率和极其纵横比的输入图像；在局部中文场景超越了GPT-4V和Gemini

InternLM-XComposer

【2023.09颁布】

交织图文导致：智能在输入文本中拔出适合的图片

EVA-CLIP ViT + InternLM-7B + Q-former (将图像特色紧缩到64个embedding）

两阶段训练：

stage1. 预训练：冻住ViT，训练LLM和Q-former

stage2. 监视微调：包含多义务训练和指令微调，冻住ViT和LLM，训练Q-former，对LLM启动LoRA微调，增强指令遵照和图文混排才干

【2023.10颁布】

模型架构和训练环节便捷，易于scaling；允许任用意像分辨率；推理速度快

decoder-only的transformer，没有专门的图像编码器；image patch间接线性映射到transformer第一层

【2023.10颁布】

仍经常使用MLP作为模态衔接，突出了训练的数据高效性

【2023.11颁布】

深度视觉-言语模态融合，而不影响LLM原有的言语才干：冻住LLM和ViT，在attention和FFN层训练一份视觉专家模块

【2023.12颁布】

针对GUI场景的多模态了解和导引，经常使用高分辨率-低分辨率双编码器，允许1120x1120的屏幕输入

高分辨率分指经常使用更轻量的ViT，基于cross-attention将高分辨率图像特色与LLM每层启动融合

【2023.12颁布】

探求了视觉-言语模型训练的设计选用：

LLaVA-Next

【2024.01颁布】

相关于LLaVA-1.5，坚持了极简的设计和数据高效性：

灵活高分辨率：视觉编码器允许336x336的图像输入，关于672x672的图像，依照{2,2}的grid split成4个图像patch过encoder，downsample到336x336也过encoder，特色拼接作为visual tokens输入到LLM中

搜集高品质用户数据，包含实在场景中反映用户更宽泛用意的指令数据，应用GPT-4V启动数据结构

多模态文档/图表数据，增强文档OCR和图表了解才干

InternLM-XComposer2

【2024.01颁布】

提出了新的模态对齐方法partial LoRA：只在image token上减少LoRA参数，保障预训练言语常识的完整性，这样一个更轻量的视觉编码器雷同有效

OpenAI CLIP ViT-L/14 + InternLM2-7B + partial LoRA (rank=256)

两阶段训练：

stage1. 预训练：冻住LLM，微调ViT和partial LoRA模块，包含通用语义对齐（了解图像基本内容）、环球常识对齐（启动复杂的常识推理）、视觉才干增强（OCR、物体定位、图表了解）

stage2. 监视微调：微调整个模型，包含多义务训练、自在方式图文排布

InternLM-XComposer2-4KHD

2024.04颁布了4KHD版本：

允许灵活分辨率（336px → 4K (3840x1600))：改良了patch division范式，坚持训练图像原有的纵横比，智能变动patch数目，基于336x336的ViT性能layout

灵活图像划分：将输入图像resize and pad到336的整数倍宽高

结合图像的global和local视角：global视角由输入间接resize到336x336，经常使用sep token分隔两种视角的token

图像2D结构的换行符：可学习的\n token分隔图像token行

Mini-Gemini

【2024.03颁布】

经常使用双视觉编码器提取低分辨率embedding作为query，高分辨率特色区域作为key/value，两者之间做cross-attention，输入开掘的tokens作为prompt前缀，输入到LLM做推理，外接图像解码器生成图像(SDXL)

原文链接:

关注微信

上一篇：什么是LLMOps?

下一篇：大模型与生成式大模型的区别什么是生成式大模型

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：https://duobeib.com/diannaowangluoweixiu/6183.html

多模态视觉

InstructBLIP

InternLM-XComposer

LLaVA-Next

InternLM-XComposer2

InternLM-XComposer2-4KHD

Mini-Gemini

猜你喜欢

热门标签

随便看看

TCP发送窗口接纳窗口以及其上班原理

I 如何发现 PostgreSQL 和中那些消耗 CPU

如何改良DevOps上班流

安保无大事安保防范从Nginx性能做起程序员安保规范

斯坦福学者提出Edu

热门资讯

阅读排行

介绍六个又好用又收费的在线代码编辑器

电脑城教你腾讯电脑管家如何关闭自保护

浅谈无人机的运行场景

Windows 11等版本群体中招微软证明存在高危破绽

ChatterBot 库制造一个聊天机器人经常使用

关注我们

多模态视觉

InstructBLIP

InternLM-XComposer

LLaVA-Next

InternLM-XComposer2

InternLM-XComposer2-4KHD

Mini-Gemini

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号