2024 CVPR

  • 电脑网络维修
  • 2024-11-14

构想一下,你仅须要输入一段便捷的文本形容,就可以生成对应的 3D 数字人动画的骨骼举措。而以往,这理论须要低廉的举措捕捉设施或是专业的动画师逐帧绘制。这些骨骼举措可以进一步的用于游戏开发,影视制造,或许虚构事实运行。来自阿尔伯塔大学的钻研团队提出的新一代 Text2Motion 框架,MoMask,正在让这一切变得或许。

MoMask 框架是基于多层团圆化举措示意的,应用生成式掩码技术,能够生成更高品质的 3D 人体举措。如视频 1 中展现,MoMask 可以依据文本形容,精细控制生成的举措内容。在 HumanML3D 数据集上,MoMask 的生成品质可到达 FID 为 0.045,超越了现有的最优上班如 T2M-GPT(0.141)和 ReMoDiffuse(0.103)。这项钻研成绩已被 CVPR 2024 收录,并且其代码和模型已在 GitHub 上开源,领有 500 + 星标。

MoMask 模型引见

图 2:MoMask 框架结构与训练流程

MoMask 框架重要蕴含三个关键的神经网络模块:

举措序列团圆化。 MoMask 驳回基于团圆表白的生成式框架,首先将延续的举措表白启动团圆化。如图 3,传统的 VQ-VAE 在量化(Quantization)环节中存在消息损失疑问,由于它将每个隐向量交流为码书(Codebook)中最相近的码向量,这两个向量之间的差异造成了消息的失落。为了处置这个疑问,MoMask 驳回了多层量化的方法(图 2.a),逐层对隐向量和码向量之间的残差进一步量化,从而提高了隐向量的预计精度。随着层数加深,每一层所建模的消息量(即残差)也逐渐缩小。训练时,为了尽或许参与每一个量化层的容量,咱们随机摈弃掉末尾的若干个残差层。最终,举措序列被转化为多层的团圆举措标志,其中基层标志蕴含了举措的重要内容,而残差层则用于填补举措的细节。接上去,MoMask 经常使用 Masked Transformer 生成基层举措标志,并经常使用 Residual Transformer 逐层预测残差层的举措标志。

生成式掩码建模。 如图 2.b,文本形容首先经过 CLIP 编码成语义向量,同时基层的举措标志序列被随机掩码。而后,这些掩码的举措标志序列和 CLIP 文本向量一同输入到 Transformer 中启动训练,其目的是准确预测被掩码掉的举措标志。与以往基于掩码的预训练模型不同的是,这里掩码标志的比例是随机的,并且可以在 0 到 1 的区间取值,这象征着掩码的水平也是随机的。最坏状况下,一切标志都被掩码,而最好状况下,一切标志都被保管。

残差层标志预测。 由于残差层蕴含了更细粒度的举措消息,因此依据前面 j > 1 层的举措标志内容,可以基本确定第 j 层的举措标志。在训练时,随机选用一个残差层 j 启动预测,将已知的前 j 层的举措标志、CLIP 文本向量以落第 j 层的编码输入到 Transformer 中,经常使用交叉熵损失函数来优化模型。

生成环节。 图 4 形容了 MoMask 框架中的生成环节。从基层的举措标志序列开局,一切的举措标志都被掩码,而后经过 Masked Transformer 启动预测,获取完整的标志序列。接着,仅置信度最高的一局部标志被保管,剩下的标志将被从新掩码(Remask),并从新预测。经过一个预设的调度函数 (Schedule function),在经过必定次数的掩码与预测后,获取最终的基层举措标志序列。而后,Residual Transformer 依据基层的标志序列,逐层地预测残差层的标志序列。最终,一切标志序列被输入到 RVQ-VAE 的解码器中,并解码取得对应的举措序列。因此,无论举措序列的长度为多少,MoMask 只有要固定步数去生成该序列。理论状况下,MoMask 仅须要启动不超越 20 步的迭代,包括基础与残差层的生成。

试验结果

在视频 2 中,MoMask 与其余三个基线方法启动了对比,包括干流的分散模型(MDM、MLD)和 GPT 模型(T2M-GPT)。MoMask 在应容许战性举措(如绊脚和抱脚)以及更精细的文本控制方面体现更杰出。

在下表中,咱们对 MoMask 在 HumanML3D 和 KIT-ML 数据集上的功能启动了更片面的剖析。可以看出,MoMask 框架在 R-Precision 和 FID 等目的上一直体现最优,在 HumanML3D 数据集上,生成品质到达了 FID 为 0.045。

图 5 展现了 Masked Transformer 推断步数对生成举措的全体品质影响,其中 FID 和 MM-Dist 区分批示了举措生成品质以及举措与文本内容的婚配水平,值越低代表功能越好。从图中可以看出,仅须要启动 10 步推断,生成品质就可以收敛到最优水平。

图 5: 推断步数对生成品质影响

运行:举措时序补齐

MoMask 还可用于举措序列的时序补齐,即依据文本对举措序列指定的区间启动编辑或修正。在视频 3 中,展现了基于 MoMask 对举措序列的前缀、两边局部和后缀,依据给定的文本启动内容补齐。

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/5433.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号