国产最强语音大模型降生 MaskGCT宣布开源 声响效果媲美人类

  • 电脑网络维修
  • 2024-11-14

近期,港中大(深圳)联手趣丸科技联结推出了新一代大规模声响克隆 TTS 模型 ——MaskGCT。该模型在蕴含 10 万小时多言语数据的 Emilia 数据集上启动训练,展现出超人造的语音克隆、格调迁徙以及跨言语生成才干,同时坚持了较强的稳固性。MaskGCT 已在香港中文大学(深圳)与上海人工智能试验室联结开发的开源系统 Amphion 发布。

本文引见了一种名为 Masked Generative Codec Transformer(MaskGCT)的全非自回归 TTS 模型。

现有大规模文本到语音(TTS)系统通常分为自回归和非自回归系统。自回归系统隐式地建模继续期间,但在鲁棒性和继续期间可控性方面存在必定毛病。非自回归系统在训练环节中须要显式的文本与语音对齐消息,并预测言语单元(如音素)的继续期间,这或者会影响其人造度。

该模型消弭了文本与语音监视之间的显式对齐需求,以及音素级继续期间预测。MaskGCT 是一个两阶段模型:在第一阶段,模型经常使用文本预测从语音自监视学习(SSL)模型中提取的语义标志;在第二阶段,模型基于这些语义标志预测声学标志。MaskGCT 遵照掩码预测学习范式。在训练环节中,MaskGCT 学习依据给定的条件和揭示预测掩码的语义或声学标志。在推理环节中,模型以并行模式生成指定长度的标志。经过对 10 万小时的人造语音启动试验,结果标明 MaskGCT 在品质、相似度和可了解性方面优于最先进的零样本 TTS 系统。

MaskGCT 模型由四个重要组件组成:

1. 语音语义示意编解码器:将语音转换为语义标志。

2. 语音声学编解码器:从声学标志重建波形。

3. 文本到语义模型:经常使用文本和揭示语义标志预测语义标志。

4. 语义到声学模型:基于语义标志预测声学标志。

语音语义示意编解码器用于将语音转换为团圆的语义标志,这些标志通常经过团圆化来自语音自监视学习(SSL)模型的特色取得。与以往经常使用 k-means 方法团圆化语义特色相比,这种方法或者造成消息损失,从而影响高品质语音的重建或声学标志的准确预测,尤其是在音调丰盛的言语中。为了最小化消息损失,本文训练了一个 VQ-VAE 模型来学习一个向量量化码本,该码天性够从语音 SSL 模型中重建语音语义示意。详细来说,经常使用 W2v-BERT 2.0 模型的第 17 层暗藏形态作为语音编码器的语义特色,编码器和解码器由多个 ConvNext 块组成。经过改良的 VQ-GAN 和 DAC 方法,经常使用因子分解码将编码器输入投影到低维潜在变量空间。

语音声学编解码器旨在将语音波形量化为多层团圆标志,同时尽或者保管语音的一切消息。本文驳回残差向量量化(Residual Vector Quantization, RVQ)方法,将 24K 采样率的语音波形紧缩为 12 层的团圆标志。此外,模型经常使用 Vocos 架构作为解码器,以提高训练和推理效率。

文本到语义模型驳回非自回归掩码生成 Transformer,而不经常使用自回归模型或任何文本到语音的对齐消息。在训练环节中,咱们随机提取语义标志序列的前缀局部作为揭示,以应用言语模型的高低文学习才干。咱们经常使用 Llama 格调的 Transformer 作为模型的骨干,结合门控线性单元(GLU)和 GELU 激活函数、旋转位置编码等,但将因果留意力交流为双向留意力。还经常使用了接受期间步 t 作为条件的自顺应 RMSNorm。在推理环节中,咱们生成恣意指定长度的目的语义标志序列,条件是文本和揭示语义标志序列。本文还训练了一个基于流婚配的继续期间预测模型,以预测基于文本和揭示语音继续期间的总继续期间,应用高低文学习。

语义到声学模型雷同驳回非自回归掩码生成 Transformer,该模型以语义标志为条件,生成多层声学标志序列以重建高品质语音波形。

MaskGCT 能超人造地模拟参考音频音色与格调,并跨言语生成音频。

以下是一个展现 MaskGCT 翻译《黑神话:悟空》的实例:

SOTA 的语音分解效果:MaskGCT 在三个 TTS 基准数据集上都到达了 SOTA 效果,在某些目的上甚至超越了人类水平。

此外,MaskGCT 在格调迁徙(口音、情感)也到达了 SOTA 的水准:

咱们还钻研了 MaskGCT 在中、英外其它言语的才干:

目前,MaskGCT 在短剧出海、智能助手、有声读物、辅佐教育等畛域领有丰盛的运行场景。为了放慢落地运行,在安保合规下,趣丸科技打造了多语种速译智能视听平台 “趣丸千音”。一键上行视频即可极速翻译成多语种版本,并成功音话同步、口型同步、去字幕等性能。该产品进一步改造视频翻译制造流程,大幅降落过往低廉的人工翻译老本和简短的制造周期,成为影视、游戏、短剧等外容出海的现实选用平台。

《2024 年短剧出海白皮书》显示,短剧出海成为蓝海新赛道,2023 年海外市场规模高达 650 亿美元,约为国际市场的 12 倍,短剧出海成为蓝海新赛道。以 “趣丸千音” 为代表的产品的产生,将减速国产短剧 “走进来”,进一步推进中华文明在环球不同语境下的流传。

MaskGCT 是一个大规模的零样本 TTS 系统,应用全非自回归掩码生成编解码器 Transformer,无需文本与语音的对齐监视和音素级继续期间预测。MaskGCT 经过文本预测从语音自监视学习(SSL)模型中提取的语义标志,而后基于这些语义标志预测声学标志,成功了高品质的文本到语音分解。试验标明,MaskGCT 在语音品质、相似度和可了解性方面优于最先进的 TTS 系统,并且在模型规模和训练数据量参与时体现更佳,同时能够控制生成语音的总时长。此外,咱们还探求了 MaskGCT 在语音翻译、语音转换、情感控制和语音内容编辑等义务中的可裁减性,展现了 MaskGCT 作为语音生成基础模型的后劲。

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/4251.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号