分散模型失宠 端侧非自回归图像生成基础模型Meissonic退场 逾越SDXL!

  • 电脑网络维修
  • 2024-11-15

最近,YouTube和Reddit上产生了一个惹起宽泛讨论的图像生成模型,来自日本、韩国、美国、印度、中东和英国的网友们纷繁介入讨论。

那么,这究竟是怎样回事呢?让咱们一同来看看吧。

近年来,大言语模型在自然言语处置畛域取得了渺小的打破,以LLaMA和Qwen等为代表的模型展现了弱小的言语了解和生成才干。

但是,图像生成技术的打破关键得益于分散模型,如Stable Diffusion XL在图像品质、细节和概念分歧性方面设立了理想规范。但是,这些分散模型与自回归言语模型的上班原理和架构清楚不同,造成在视觉和言语义务上成功统永世成方法面临应战。

这种差异不只使这些模态的整合变得复杂,还凸显了须要翻新的方法来弥合它们之间的差距。自回归文本到图像模型(如LlamaGen)经过预测下一个token生成图像,但因为生成的图像token数量庞大,自回归模型在效率和分辨率上也面临瓶颈,难以运行到实践场景。

于是,一些Masked Image Modeling(MIM)技术,例如MaskGIT和MUSE被提出。这些方法展现了高效图像生成的后劲。

虽然MIM方法具备必定的前景,它们仍面临两个关键限度:

1.分辨率限度

的MIM方法只能生成最大分辨率为512×512像素的图像。这一限度阻碍了它们的宽泛运行和进一步开展,尤其是在文本生成图像的社区中,1024×1024分辨率逐渐成为规范。

2. 功能差距

现有的MIM技术尚未到达上游分散模型如SDXL所体现的功能水平,特意是在图像品质、复杂细节和概念表白等关键畛域体现不佳,而这些对实践运行至关关键。这些应战须要探求新的翻新方法,Meissonic的指标是使MIM能够高效生成高分辨率图像(如1024×1024),同时增加与顶级分散模型的差距,并确保其计算效率适宜生产级配件。

Meissonic模型提出了全新的处置打算,基于非自回归的掩码图像建模(MIM),为高效、高分辨率的T2I生成设定了新规范。

论文链接:

GitHub Code:

Huggingface Model:

经过架构翻新、先进的位置编码战略和优化的采样方法,Meissonic不只在生成品质和效率上与上游的分散模型(如SDXL)相媲美,甚至在某些场景中逾越了它们。

此外,Meissonic应用高品质的数据集,并经过基于人类偏好评分的宏观条件启动训练,同时引入特色紧缩层,清楚优化了图像的保真度与分辨率。

以下是Meissonic在方法上的几项关键技术改良:

1. 增强型Transformer架构

Meissonic联合了多模态与单模态的Transformer层,旨在捕捉言语与视觉之间的互动消息。从未池化的文本示意中提取有用信号,构建两者之间的桥梁;单模态Transformer层则进一步细化视觉示意,优化生成图像的品质与稳固性。钻研标明,这种结构按1:2比例能够成功最佳功能。

2. 先进的位置编码与灵活采样条件

为坚持高分辨率图像中的细节,Meissonic引入了旋转位置编码(RoPE),为queries和keys编码位置消息。RoPE有效处置了随着token数量参与,传统位置编码方法造成的高低文关联失落疑问,尤其在生成512×512及更高分辨率图像时。

此外,Meissonic经过引入掩码率作为灵活采样条件,使模型自顺应不同阶段的采样环节,进一步优化图像细节和全体品质。

3. 高品质训练数据与宏观条件

Meissonic的训练依赖于经过精心挑选的高品质数据集。为优化图像生功效果,Meissonic在训练中参与了图像分辨率、裁剪坐标及人类偏好评分等宏观条件,清楚增强了模型在高分辨率生成时的稳固性。

4. 特色紧缩层

为了在坚持高分辨率的同时优化生功效率,Meissonic引入了特色紧缩层,使其在生成1024×1024分辨率图像时可以有效降落计算老本。

那么,Meissonic究竟有多弱小呢?让咱们来看看它的体现:

在HPS V2.0基准测试中,Meissonic以平均0.56分的长处逾越了SDXL。

在图像编辑才干评测数据集Emu-Edit上,Meissonic的Zero-shot图像编辑功能甚至逾越了经过图像编辑指令微调后的模型。

在格调多样性生成方面,Meissonic展现出逾越SDXL的体现。

而这一切,都只有SDXL 1/3的推理期间和1/2的显存占用。值得留意的是,Meissonic可以在8GB显存下运转,让中低端显卡的用户也能受益。

此外,Meissonic还展现了超强的zero-shot图像编辑才干,无需微调即可灵敏编辑有mask和无mask的场景,提供了更多创作或者性。

高效推理与训练的联合

在文本到图像分解畛域,Meissonic模型仰仗出色的效率锋芒毕露。该模型不只在推理环节中成功了高效性,同时在训练阶段也清楚优化了效率。Meissonic驳回了一套精心设计的四阶段训练流程,逐渐优化生功效果。

阶段一:了解图像基础概念

钻研标明,原始LAION数据集的文本形容不可充沛满足文本到图像模型的训练需求,通常须要多模态大型言语模型(MLLM)启动优化,但这消耗少量计算资源。

为此,Meissonic在初始阶段驳回了愈加平衡的战略,应用经过挑选的高品质LAION数据学习基础概念,经过降分辨率的方法提高效率,最终保管约2亿张高品质图像,并将初始训练分辨率设定为256×256。

阶段二:成功文本与图像对齐

第二阶段的重点在于优化模型对长文本形容的了解才干。团队挑选了审美分数高于8的图像,构建了120万对优化后的分解图文对及600万对外部高品质图文对。此阶段,训练分辨率优化至512×512,配对数据总量到达约1000万对,从而清楚优化了Meissonic在处置复杂揭示(如多样格调和虚构角色)以及形象概念方面的才干。

阶段三:成功高分辨率图像生成

在Masked Image Modeling(MIM)畛域,生成高分辨率图像依然是一个应战。Meissonic经过特色紧缩技术高效成功了1024×1024分辨率的图像生成。引入特色紧缩层后,模型能够在较低计算老本下成功从512×512到1024×1024的平滑过渡,此阶段的数据集经过进一步挑选,仅保管约600万对高分辨率、高品质的图文配对,以1024分辨率启动训练。

阶段四:精细化美学细节生成

在最后阶段,Meissonic经过低学习率微调模型和文本编码器,并引入人类偏好评分作为训练条件,进一步优化了生成图像的品质和多样性。这一阶段的训练数据与第三阶段坚持分歧,但愈加器重对高分辨率图像生成的美学细节的打磨。

经过上述四个阶段的训练,Meissonic在训练数据和计算老本上成功了清楚降落。详细而言,在训练环节中,Meissonic仅经常使用210万张图像,相较于其余干流模型(如SD-1.5和Dall-E 2),训练数据的经常使用量清楚增加。

在经常使用8个A100 GPU启动训练的状况下,Meissonic的训练期间仅需19天,清楚低于Würstchen、SD-2.1等模型的训练期间。

宽泛影响

最近,移动设施上的端侧文本到图像运行如谷歌Pixel 9的Pixel Studio和苹果iPhone 16的Image Playground相继推出,反映出优化用户体验和包全隐衷的日益趋向。作为一种资源高效的文本到图像基座模型,Meissonic在这一畛域代表了关键的停顿。

此外,来自斯坦福大学的守业团队Collov Labs在一周内就成功复现出雷同架构的Monetico,生功效果可以与Meissonic相媲美,推理效率愈加高效,并荣登huggingface趋向榜第一名。这也显示出Meissonic架构在资源高效上的渺小后劲和运行价值。

参考资料:

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/6388.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号