音乐驱动数字人技术详解

  • 电脑网络维修
  • 2024-11-15

一、音乐驱动体系 Music XR Maker

Music XR Maker 源于天琴试验室,天琴试验室是腾讯 音乐首个音视频试验室,努力于经过 AI 科技优化音娱视听体验,也是腾讯音乐的首个音视频技术研发中心。天琴试验室在视频、视觉方面关键做的事件包含两方面,一方面是Music XR Maker 以及图像渲染技术,另一方面是视频关系,比如视频了解、音乐视频化、视频品质优化等。

1、音乐驱动在数字人技术栈中的定位

在数字人技术栈中,音乐驱动的定位可分为三个局部:

笼统构建 :在笼统构建环节中,触及到的技术包含模型制造、拍照捏脸、拍摄建模、服饰生成等。

人物驱动 :人物驱动分红两集体系,第一个是基于中之人,面前有真实人物在驱动;第二个是 AI 驱动。在音频和视觉上,两集体系都有对应的成功:在音频声响这块,中之人间接用中之人的声响,AI 驱动在谈话方面有 TTS 技术,歌曲歌声方面对应有歌声分解技术。在面捕这块,可以实时把中之人的面部表情捕捉到位,AI 生成则有谈话口型生成、歌唱口型生成、谈话表情生成、歌唱表情生成等。在举措和手势方面,也有相应的举措捕捉、手势捕捉,在音乐畛域也有对应的舞蹈举措生成和乐器手势生成。

可视化渲染 :当成功将树立的模型驱动起来后,要求让普通用户看失掉模型,这就触及到可视化渲染。比如虚构偶像视频散发到各种视频平台、虚构主播开虚构直播、互动文娱多人互动等。

2、Music XR Maker 音乐驱动研发体系树立

Music XR Maker 着重音乐,可以了解为基于音乐内容做虚构元素的创立,实质是属于 AI 驱动当中的音乐驱动,可以驱动的名目包含歌声分解、歌唱口型生成、舞蹈举措生成、乐器手势生成、歌唱表情生成等,还包含后续将会逐渐迭代参与的场景灯效舞美。Music XR Maker 音乐驱动研发体系树立包含:

数据源 :树立 Music XR Maker 体系在数据层面分红两个局部:一是建模举措口型生成必定要有数据起源,目前大局部起源是动捕或面捕数据,还有手势捕捉数据等;二是既然把数据跟音乐关联,就要有十分强的音乐了解才干,包含音乐格调、心情、音乐旋律、能量、歌曲的节拍、段落等。

AI 生成 :有了基础数据后,就经过外围 AI 生成的算法把两方面数据启动关联。算法有两种类型:一类是端到端模型,包含分类预测模型、关联点预测 、生成类模型等;另一类是 AI 编排生成算法,相对复杂且触及多种步骤,还会经常使用到相似搜查或介绍等做法,可以分红召回、排序、重排三个阶段:在召回阶段,对输入信号启动关联解析数据;在排序阶段,依据歌曲节拍、歌曲热度、共性化等排序;在重排阶段,启动时序连接性、段落关联性等调整。

3D 渲染 :经过 AI 生成失掉驱动数据后,要买通完整商业化链条还要求启动 3D 渲染,这是必无法少的一环。首先要求渲染引擎,像罕用的 Unity 、UE,还要求专业的 3D 数据格局,像 SMPL、GLB、FBX 等;同时也要求消费劲工具,像 Blender、Maya 等。

产品运行 :对企业来说,最后一环就是真正落地运行到详细产品。落地运行分两种类型:一种是有用户介入的互动文娱运行,以 QQ 音乐的音乐环球、音乐直播的云蹦迪直播、全民 K 歌的 KK 秀、TMEland 等为代表;另一种是在文娱公司比拟经常出现的虚构人代表,比如已地下的扇宝、安可、继续在研发的虚构人名目,曝光的场景包含虚构偶像视频、虚构直播、关键节点开虚构演唱会等,都是虚构偶像展现的中央。

二、音乐生成数字人舞蹈

1、虚构人舞蹈的发生模式

数字人舞蹈的生成模式大抵分红三种:

动捕棚 :驳回目前比拟新的多目动捕设备、惯性捕捉,失掉的效果是真正影视级效果,也是目前能接触到的最佳效果。但存在多少钱低廉,人力、设备老本初等疑问。运行场景来说,可用于精品视频输入。

视频复刻 :属于单目动捕,用于普通的低精度场景效果还不错,但运用到十分剧烈的快节拍舞蹈,特意是运用到高精度模型,效果上存在细节失落。这种模式人力老本相对较低,所以在低精度模型场景上运行较多。视频复刻有个十分清楚的好处是其余模式达不到的,它可以很好抓住热点。如今的短视频类平台每隔一段期间都会出一些热点舞蹈,经过这种模式可以极速的把抢手舞蹈实时复刻进去。

基于音乐生成 :属于纯算法生 成,效果依赖数据品质和算法自身好坏。存在的疑问是数据失掉艰巨,好处在于可以批量消费场景。在批量场景下,可以和精品视频启动互补,在日常视频输入可以用到这种基于音乐生成舞蹈的打算。

2、音乐生成数字人舞蹈的业内打算

业内有很多音乐生成数字人舞蹈的打算,大抵有如下几种:

基于生成的打算 :十分具有构想力的打算,但商用或许存在无法控状况。

基于 codebook :对比于生成的打算启动改良,参与了 codebook 等模式,对生成的舞蹈法令有必定解放,是十分不错的打算。

基于舞蹈编排 :试验的难度和成功的可行性更高一些。

面向商用的舞蹈生成如何做,有三点要素要求思考:一是舞蹈举措自身是好看的举措;二是舞蹈举措和音乐的节拍、韵律要谐和分歧;三是音乐和舞蹈的格调也要分歧。所以在 AI 编舞时重点会关注音乐特色,包含音乐自身的特性、音乐节拍等,对舞蹈也会做对应婚配,包含舞蹈属性、格调、心情、节拍快慢等。综合来看,商用舞蹈生成是在有原始音频文件后,经过一些方法提取音频特色,接着经过特色回归到舞蹈举措,最后将这些举措正当的拼接起来。

3、TME 天琴打算

下方是 TME 天琴打算的生成算法截图。当拿到一段音乐后,切成一帧一帧的小片段,接着对每一帧提取对应的音乐属性特色,包含旋律、节拍等最能代表音乐和舞蹈的特色,而后去婚配最适宜的舞蹈片段,同时基于音乐节拍、格调类型,对召回的片段启动从新排序,过滤掉不太适宜的片段,最终把对应的片段启动拼接,就构成一段完整舞蹈。这里还触及一个疑问,舞蹈举措或许前后段衔接有疑问,可经过 平滑算法启动过渡 来处置。

这个打算实践运行起来比拟便捷,而且可以间接经常使用。但这个打算存在必定疑问, 由于构想力不够,生成的打算多样性略差。

另外一套打算是 基于生成的打算 。输入一段音频信号,对应的原始样本音频会关联到对应的舞蹈,输入模型中经过一个环节,恢复回最后的舞蹈举措。在这个环节中,要把音频信号特色和舞蹈信号特色尽量拉齐,尽量表白更宽泛的含意。

当音乐生成数字人舞蹈成功后,可以启动客观评测。针对雷同一首歌,把生成的舞蹈和手 K 的舞蹈举措发给普通用户启动对比,选取两种模式对比:第一个模式是间接对比生成结果和手 K 结果,让用户选用哪种更好;第二个模式是把生成结果和手 K 结果区分启动打分。经过评测发现,两种模式的论断相似,生成结果曾经凑近手 K 的效果,总体效果不错。

4、数字人舞蹈的商用门路

在数字人舞蹈的商用门路方面了解如下:

首先, 经过动捕棚拍摄、CP 手 K 效果最好,会运行到虚构偶像、虚构主播的精品 MV、笼统宣传片,同时这类高品质舞蹈数据可以保管上去。

第二, 单目标视频复刻关键用到虚构主播、虚构偶像、用户互动文娱场景的爆款舞蹈生成。生成数据可以经过人工挑选,把中品质舞蹈数据保管上去。

最后, 把之前保管上去的高品质舞蹈数据和中品质舞蹈数据,作为 AI 舞蹈生成模型的数据起源,生成的舞蹈数据就作为量产数据,用在虚构偶像、虚构主播、用户互娱场景,批量消费更多的舞蹈举措。

三 、歌声驱动数字人口型

1、歌声驱动数字人口型打算

歌声驱动数字人口型有两种成功打算:

① 专业面捕打算: 有专业设备、配套软件,好处是效果最佳,有限表情基。宽泛运行于超写实虚构人场景。

② 普通光学摄像头打算: 经过普通手机摄像头可以成功,普通场景下效果齐全可接受,规范 52 BS。实用于普通的虚构人场景。

2、口型驱动数据集构建

在口型驱动数据数据树立上,把全民 K 歌软件的用户 K 歌视频画面保管上去,同时录入用户唱歌干声数据。经过前面提到的单目动捕打算,把唱歌画面启动口型识别,拿到口型 BS 数据,再加上保管上去的用户唱歌干声数据,同时输入到歌声口型驱动模型。

歌唱驱动和谈话驱动有差异:谈话时嘴巴动的频率比拟快,但是唱歌时由于要一口吻唱下去,嘴巴体现更有连接性;同时谈话时嘴巴动的幅度没有歌唱时幅度大,这也是专门做歌唱口型驱动模型的要素。

3、TME 口型驱动模型

TME 口型驱动模型的打算同时用到两局部数据:一个是用户输入的干声数据,一个是歌词文件(歌词文件经过前处置,对歌词文件和音频做对齐,拿到每一个字精准的期间戳)。对输入音频和歌词做 Encoder 处置后,启动融合。把融合结果输入到另一个面部婚配预测模块,该模块会将帧的歌词、音频消息同之前所有帧的消息放在一同,做一个 Decoder 处置。最终预测到整首歌婚配变动后再转换为所要求的模型参数。

4、实时性处置打算

前面是异步生成视频的场景,实时性如何处置有如下思考:先离线生成预设 BlendShape,输入测试文件及干声数据,干声起源于两个局部:一是之前用户唱的低劣作品干生;二是歌曲原唱,经过技术提取原唱的干声,而后把各式文件和综合干声,经过前面的口型驱动模型,失掉预设 BlendShape。等到真正实施时,用户实时干声经过音频映射模型,失掉实时音频剖析结果,和前面的预设 BlendShape 启动融合,最后失掉实时 BlendShape。这样就处置了实时性疑问,同时兼备口型生成的效果。

实时性处置打算的关系技术曾经上线运行,在全民 K 歌 8.0 的 QQ 秀可以体验到:一个场景是用户入唱时,会有 K 歌秀界面,一边唱一边可以看到 QQ 秀虚构人的举措、口型等;另一个是在歌房场景也有相似体验。

四、歌声驱动数字人歌唱表情

当做好数字人歌唱口型后,发现人显得比拟呆。剖析专业歌手演唱扮演,发现唱歌时要表白歌唱情感,除了口型之外,歌唱时的面部表情、手势、举措都要同时具有,三者合一的完整体现才干突出演唱者过后的剧烈情感。

1、歌唱表情数据的采集

歌声驱动数字人歌唱表情的成功要求启动数据采集。数据采集时先找到带表情的演唱视频样本,经过面捕拿到面部表情,经过动捕拿到举措,经过手捕拿到手势,而后把表情、举措和手势合一,融入歌唱表情段,经过人工表情打标后放入歌唱表情库。

2、歌唱表情的正当驱动

采集到歌唱表情之后,要求正当的驱动起来。经过歌词文本剖析拿到歌唱时歌词的表情消息,确定整个歌唱扮演的表情基调。此时可以从宏大的各种类型表情库里,挑选出适宜的表情,适宜于在歌曲或许歌曲的某一个片段安插表情。

五、总结与展望

这两年上线了很多与虚构人或元宇宙关系的平台和产品,文娱公司、明星、大型商业公司、海量主播、普通用户等很多都有自身的虚构笼统,虚构笼统将变得越来越普遍。

中之人面临越来越多的疑问,比如老本疑问、治理疑问、虚构笼统的灵魂归属于虚构偶像自身还是中之人。

AI 驱动技术面临极速更新,包含笼统创立技术、视觉驱动技术、音频歌声分解技术等。TME 以音乐为外围启动技术树立,包含音乐驱动数字人舞蹈、数字人歌唱口型、数字人歌唱表情等,未来还有其余方面。

总体来说,数字人的未来在于技术。

六、问答环节

Q1:动捕数据或地下数据集重定向到模型驱动有疑问时如何处置?

A1:确实会存在重定向的疑问。关键是先重定向到一些规范模型,而后再经过人工发现有疑问的数据,对有疑问的数据启动分类:如经过手动可以小范围处置的,就启动修复;如处置不了,就间接把数据放弃掉。

Q2:音乐生成数字人舞蹈的客观评测方法?

A2:由于音乐生成数字人舞蹈是倾向客观的一个畛域,生成的物品无法能跟原始的一样,假设跟原始一样,那就没有什么意义了。所以音乐生成数字人舞蹈更多的是一些客观评测。

Q3:如今关键钻研的是卡通类型的数字人吗?

A3:如今关键钻研的是在卡通类型的数字人,目前没有太触及写实虚构人方面。

Q4:拼接的单元是小节吗?

A4:拼接的单元不是小节。这里触及到一些细节,比如依据音乐的节拍启动切分,并不是便捷的切几秒钟舞蹈片段,要求把舞蹈片段切的更便于后续的拼接。

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:http://www.duobeib.com/diannaowangluoweixiu/6878.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号