视频生成控制优化几十倍 贾佳亚团队正应战Scaling 新一代轻量级ControlNeXt火了 Law

  • 电脑网络维修
  • 2024-11-15

最近,又一款国产 AI 神器吸引了众网友和圈内钻研人员的关注!它就是全新的 图像和视频生成控制工具 —— ControlNeXt,由思谋科技开创人、港科大讲座传授贾佳亚团队开发。

X 平台上出名 AI 博主「AK」介绍

从命名来看,ControlNeXt 「致敬」了斯坦福大学钻研团队在 2023 年 2 月提出的 ControlNet,经过引入一些额外的控制信号,让预训练的图像分散模型(如 Stable Diffusion)依据预设的条件调整和优化,成功线稿生成全彩图,还能做语义宰割、边缘检测、人体姿态识别。

假设说 ControlNet 开启了大模型多样化玩法的先河,那么 ControlNeXt 在生成速度、精准控制和用户友好性等方面迎来全方位优化。关键的是, ControlNeXt 只用不到 ControlNet 10% 的训练参数 ,可以称得上是下一代「小钢炮版」ControlNet 了。

截至目前,ControlNeXt 兼容了多款 Stable Diffusion 家族图像生成模型(包括 SD1.5、SDXL、SD3),以及视频生成模型 SVD。并且,ControlNeXt 对这些模型都做到即插即用,无需额外性能便能轻松玩转各种控制指令,方便性拉满。该名目的 GitHub 星标已达 1.1k。

名目地址:

实战效果终究如何?上方一波 ControlNeXt 的 Demo 示例会给咱们答案。

ControlNeXt 允许 Canny(边缘)条件控制,在 SDXL 中,经过提取下图(最左)输入图像的 Canny 边缘,输入不同格调的图像。

当然,更复杂的画面轮廓和控制线条也能轻松搞定。

ControlNeXt 还允许掩模(mask)和景深(depth)条件控制,下图区分为 SD 1.5 中掩模与景深可控生功效果,很有一笔成画的滋味。

雷同在 SD 1.5 中,ControlNeXt 允许姿态(pose)条件控制,并且无需训练即可无缝集成各种 LoRA 权重。配合经常使用人体姿态控制与 LoRA,在坚持举措相反的前提下,多样格调的人物跃然纸上,比如兵士(Warrior)、原神(Genshin)、国画(Chinese Painting)和动画(Animation)。

经常使用 ControlNeXt 后,SD3 允许了超分辨率(SR),让含糊图像「变身」超高清画质。

在视频生成模型 SVD 中,ControlNeXt 成功了对人体姿态举措的全体控制,尤其连手指举措的模拟都十分精准。

不夸张的说,在视觉条件生成这块,ControlNeXt 成为了更全能的「选手」。它的亮眼视效折服了网友,甚至有人以为「ControlNeXt 是游戏扭转者,在可控图像和视频生成方面体现出色,可以构想未来社区会拿它做更多二创上班。」

而 ControlNeXt 体验全方位优化的面前,离不开贾佳亚团队 在轻量级条件控制模块设计、控制注上天位和方式的选用、交叉归一化技术的经常使用等多个方面的独到思绪

正是有了这些翻新,才带来了 ControlNeXt 训练参数、计算开支和内存占用的片面「瘦身」,以及模型训练收敛和推理层面的「提速」。

架构翻新

让 ControlNeXt 更轻、更快、更强

在剖析 ControlNeXt 有哪些翻新之前,咱们先来了解一下可控生成方法的无余,这样更能看到贾佳亚团队在架构上「对症下药」的优化。

以 ControlNet、T2I-Adapter 等典型方法为例,它们经过参与并行分支或适配器来处置和注入额外条件。接上去与去噪主分支并行处置辅佐控制以提取细粒度特色,应用零卷积和交叉留意力来整合条件控制并指点去噪环节。

这些操作往往会带来计算老本和训练开支的清楚参与,甚至造成 GPU 内存参与一倍,还须要引入少量新的训练参数。尤其针对视频生成模型,须要重复处置每个独自帧,应战更大。

贾佳亚团队首先要做的便是架构层面的剪枝。他们以为,预训练的大型生成模型曾经足够弱小,无需引入少量额外参数来成功控制生成才干。 ControlNeXt 移除 ControlNet 中宏大的控制分支(control branch),改而经常使用由多个 ResNet 块组成的轻量级卷积模块

ControlNeXt 全体训练流程

该模块的规模比预训练模型小得多,用于从控制条件中提取景深、人体姿态骨骼、边缘图等特色示意,并与去噪特色对齐。环节中更多依赖模型自身来处置控制信号,在训练时期解冻大局部预训练模块,并有选用性地优化模型的一小局部可学习参数,最大水平降落训练环节中或者发生的忘记危险。

从结果来看,在适配 SD、SDXL、SVD 等预训练模型时, ControlNeXt 的训练参数量理论不迭 ControlNet 的 10%,计算开支和内存占用大大降落 。ControlNeXt 在 SD 1.5、SDXL 和 SVD 中的可学习参数量区分为 3000 万、1.08 亿和 5500 万,相较于 ControlNet 有了数量级缩小(3.61 亿、12.51 亿和 6.82 亿)。

同时轻量级模块的引入使得 ControlNeXt 在推理阶段不会发生清楚的提前,因此生成速度会更快。如下图所示,在 SD 1.5、SDXL 和 SVD 模型中,ControlNeXt 的推理时期更短,相较于 ControlNet 更具效率长处。

另一方面,ControlNeXt 在控制条件的注入层面做了翻新。他们观察到,在大少数可控生成义务中,条件控制的方式往往很方便或与去噪特色坚持高度分歧,因此没有必要在去噪网络的每一层重复注入控制信息。

贾佳亚团队选用 在网络两边层聚兼并对齐条件控制特色与去噪特色,这里用到了关键的交叉归一化(Cross Normalization)技术 。该技术让 ControlNeXt 不用像传统方法那样应用零初始化来引入额外学习参数,还处置了初始化阶段的训练不稳固性和收敛速度慢等疑问。

得益于交叉归一化,ControlNeXt 的训练速度失掉优化,并在训练初期也能确保生成控制的有效性,降落对网络权重初始化的敏感度。从下图可以看到,ControlNeXt 成功了更快的训练收敛和数据拟合,只有要 步左右便开局收敛。相比之下,ControlNet 则须要走完十倍甚至几十倍的训练步数。

可以说,ControlNeXt 很好处置了以往可控生成方法存在的较高计算老本、GPU 内存占用和推理时延,用更少参数、更低老本成功了与以往方法相当甚至更好的控制效果和泛化性能。

而跳出此次钻研自身,ControlNeXt 也是过去两年贾佳亚团队努力方向的写照,他们努力于拿少参数、少算力来深挖大模型潜能。这显然与大模型畛域的「摩尔定律」Scaling Law 走的是不同的路,后者理论仰仗大参数、大数据和大算力来优化模型性能。

不盲跟 Scaling Law

走出不一样的大模型之路

,Scaling Law 依然在施展着作用,经过「加码」参数、数据和算力来增效是大少数圈内玩家的干流做法,OpenAI 的 GPT 系列模型是其中的典型代表,对大模型畛域发生了深远的影响。

随之而来的是更高的训练老本、更多的数据和计算资源,这些不会对财力雄厚的大厂们形成太多压力。但对那些估算相对无余的科研机构和团体开发者而言,应战很大,尤其是当下 GPU 显卡还越来越贵。

其实,拼 Scaling Law 并不是模型提效的惟一路径,从常年看也有局限性。很多业内人士以为,随着时期推移,当模型参数规模到达必定水平时,性能优化速度或者会放缓。同时高品质训练数据的继续失掉也是亟需处置的一大难题。

往年 6 月,普林斯顿大学计算机迷信系传授 Arvind Narayanan 等二人在他们的文章《AI scaling myths》中示意 AI 行业正派历模型规模下行的压力,过去一年大部离开发上班落在了小模型上,比如 Anthropic 的 Claude 3.5 Sonnet、谷歌的 Gemini 1.5 Pro,甚至 OpenAI 也推出了 GPT-4o mini,参数规模虽小、性能雷同弱小且更廉价。

贾佳亚团队秉持相似理念,没有选用有限堆数据、参数和算力的传统做法。2024 环球机器人大会上,贾佳亚在接受采访时谈到了 Scaling Law,他示意在自己团队的钻研中不会对它启动明白的定义,经常使用 1 万张卡训练进去的模型或系统不必定就比 5000 张卡训练出的更好。

贾佳亚以为应该 更多地在模型算法层面启动翻新,在工程层面最大水高山提高 GPU 显卡的应用率、降落功耗,力图用更少的计算量到达雷同的效果

同时关注偏垂类的行业和场景,经过继续的技术迭代,把算力等资源投入集中在一点,将某个畛域的模型做得更精、更专,而不像其余玩家那样耗巨资开发超大规模通用大模型。

小算力也能出大成绩

包括 ControlNeXt 在内,不盲从 Scaling Law 的思绪曾经在贾佳亚团队过去两年的系列成绩中失掉了充沛验证,笼罩了多模态大模型、超长文本裁减技术和视觉言语模型等多个钻研方向。

2023 年 8 月,贾佳亚团队提出 LISA,解锁多模态大模型「推理宰割」才干。LISA 只有要 在 8 张 24GB 显存的 3090 显卡上启动 10000 次迭代训练,即可成功 70 亿参数模型的训练

结果标明,LISA 在训练中仅经常使用不蕴含复杂推理的宰割数据,就能在推理宰割义务上展现出优秀的零样本泛化才干,并在经常使用额外的推理宰割数据微调后让宰割效果更上一个台阶。

LISA 效果展现

LISA 的成功只是少算力探求的牛刀小试,贾佳亚团队在 2023 年 10 月提出了超长文本裁减技术 LongLoRA, 在单台 8x A100 设施上,LongLoRA 将 LLaMA2 7B 从 4k 高低文裁减到 100k, LLaMA2 70B 裁减到 32k 。LongLoRA 还被接纳为 ICLR 2024 Oral。

在喂给 LongLoRA 加持的 Llama2-13B 超长篇幅的科幻巨著《三体》后,它可以为你具体总结「史强对整团体类社会的关键性」。

该团队还于 2023 年 12 月提出 LLaMA-VID,旨在处置视觉言语模型在处置长视频时因视觉 token 过多造成的计算累赘,经过将视频中每一帧图像的 token 数紧缩到了 2 个,成功了单图之外短视频甚至 3 小时时长电影的输入处置。

LLaMA-VID 被 ECCV 2024 接纳。此外,贾佳亚团队还提供了 LLaMA-VID 试用版本, 由单个 3090 GPU 成功,允许 30 分钟的视频处置 。感兴味的小同伴可以尝试一下。

往年 4 月,贾佳亚团队又提出了 Mini-Gemini,从高清图像准确了解、高品质数据集、联合图像推理与生成三个层面开掘视觉言语模型的后劲。

为了增强视觉 token,Mini-Gemini 应用额外的视觉编码器来做高分辨率优化。同时 仅经常使用 2-3M 数据,便成功了对图像了解、推理和生成的一致流程 。试验结果标明,Mini-Gemini 在各种 Zero-shot 的榜单上毫不逊色各大厂用少量数据堆进去的模型。

在间断谷歌 Gemini 识别图片内容并给出倡导的才干基础上,Mini-Gemini 还能生成一只对应的毛绒小熊

关于开源社区最大的好信息是,Mini-Gemini 的代码、模型和数据所有开源,让开发者们体验「GPT-4 + Dall-E 3」的弱小组合。贾佳亚泄漏,Mini-Gemini 第二个版本行未来到,届时将接入语音模块。

得益于开源以及算力需求相对低的个性,贾佳亚团队的名目在 GitHub 上遭到了开发者的宽泛喜欢,LISA、LongLoRA 和 Mini-Gemini 的星标数区分到达了 1.7k、2.6k 和 3.1k。

从 LISA 到最新提出的 ControlNeXt,贾佳亚团队走稳了少参数、小算力打破这条路。因为计算资源投入不大,这些模型也更容易成功商业化运行落地。

可以预感,未来在继续技术翻新的驱动下,咱们将看到更多「小而弥坚」的大模型成绩发生。

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/6127.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号