一致多模态了解和生成仅1.3B！Janus

电脑网络维修
2024-11-15

Janus 是一个一致的多模态了解和生成的大型言语模型（MLLM），它将多模态了解和生成的视觉编码解耦。Janus 基于 DeepSeek-LLM-1.3b-base 构建，该模型训练时经常使用了大概5000亿个文本token的语料库。在多模态了解方面，它经常使用 SigLIP-L 作为视觉编码器，允许384 x 384像素的图像输入。在图像生成方面，Janus 经常使用了LlamaGen的tokenizer，并且具有16倍的下采样率。

Janus的训练环节是分阶段启动的，以确保模型在多模态了解和生成义务上都能到达高性能：

第一阶段：训练Adpater和图像Head

第二阶段：一致预训练

第三阶段：监视微调（SFT）

训练细节：

作为一个next token prediction的图像生成模型，生功成果相当不错：

同时作为一个多模态了解模型，仅1.3B且只要384的输入分辨率，成果也超出预期。比如带有文字的meme图的了解，甚至也还行：

可以看出，多模态大模型生成和了解，越卷越一致；模型尺寸也有着越卷越小的趋向。

原文链接：

关注微信

上一篇：Emu3 一致多模态输入与生成

下一篇：RAG！ RAG全景图再到终章Agentic 从RAG启蒙

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：https://duobeib.com/diannaowangluoweixiu/5713.html

一致多模态了解和生成仅1.3B！Janus

第一阶段：训练Adpater和图像Head

第二阶段：一致预训练

第三阶段：监视微调（SFT）

猜你喜欢

热门标签

随便看看

TCP发送窗口接纳窗口以及其上班原理

I 如何发现 PostgreSQL 和中那些消耗 CPU

如何改良DevOps上班流

安保无大事安保防范从Nginx性能做起程序员安保规范

斯坦福学者提出Edu

热门资讯

阅读排行

LeCun转发 ChatGPT与搜查引擎合体谷歌都不香了

三大搜查引擎介绍！拥抱默认搜查放弃谷歌

对抗的发生十失业的程序员

为生成图像参与的数字水印可被随便破解钻研标明 AI

基于深度学习的Deepfake检测综述

关注我们

一致多模态了解和生成 仅1.3B！Janus

第一阶段：训练Adpater和图像Head

第二阶段：一致预训练

第三阶段：监视微调（SFT）

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号

一致多模态了解和生成仅1.3B！Janus