LLaMA

  • 电脑网络维修
  • 2024-11-15

大型言语模型(LLMs)如GPT-4等,曾经在多个畛域展现了其弱小的才干,能够经过对话协助人们成功各种义务。但是,这些模型在须要语音输入或输入的场景中仍面临清楚的限度。虽然最近的技术停顿,如GPT-4o,优化了语音交互的照应速度,但依然存在提前和品质方面的应战。如何成功低提前且高品质的语音交互,成为开源社区亟待处置的疑问。

01、概述

为了成功与LLMs的语音交互,钻研者们尝试了多种方法,每种方法都有其局限性。最经常出现的做法是将智能语音识别(ASR)和文本到语音(TTS)模型串联经常使用,但这种方法因为逐渐处置转录文本、生成文本照应和语音照应,往往造成较高的提前。为了改良这一点,一些钻研提出了多模态语音-言语模型,尝试将语音团圆化为标志,并裁减LLM词汇表以允许语音输入和输入。虽然实践上这些模型能够成功低提前的语音到语音生成,但实践上仍需生成两边文本以坚持高品质,从而就义了一局部照应速度。

此外,还有尝试经过在语义或声学标志上训练言语模型,或将语音编码器增加到LLMs中,以提高语音了解才干。但是,这些方法通常须要少量的数据和计算资源,或许只专一于语音了解,而漠视了生成才干。

02、LLaMA-Omni的打破性翻新

为了打破这些限度,中国迷信院大学的钻研团队推出了一种名为LLaMA-Omni的全新模型架构。LLaMA-Omni的设计指标是成功与LLMs的低提前和高品质的语音交互。其翻新之处在于集成了语音编码器、语音适配器、LLM和流式语音解码器,能够成功无缝的语音到语音通讯。详细来说,该模型经过间接处置语音输入绕过了两边文本转录的步骤,清楚缩小了照应提前。

LLaMA-Omni的架构重要包括四个局部:语音编码器、语音适配器、LLM和语音解码器。语音编码器基于Whisper-large-v3,从用户的语音输入中提取无心义的示意。接着,这些示意经过语音适配器处置,经过下采样和两层感知器映射到LLM的嵌入空间。LLM则基于Llama-3.1-8B-Instruct间接从语音指令生成文本照应。而语音解码器,一个非自回归流式Transformer,应用衔接时序分类(CTC)预测与语音照应相对应的团圆单元,成功了文本和语音的同步生成。

03、LLaMA-Omni的训练与评价

LLaMA-Omni驳回了两阶段的训练战略。第一阶段关注从语音指令生成文本照应,第二阶段则专一于生成语音照应。在推理环节中,LLaMA-Omni能够同时生成文本和语音照应,语音解码器在LLM生成文本的同时实时转换为语音波形。这种方法成功了极低提前的语音交互,使得用户在文本齐全生成之前即可听到照应。

为了允许LLaMA-Omni的开发和评价,钻研人员创立了InstructS2S-200K数据集。该数据集蕴含200,000个语音指令、文本照应和语音照应的三元组。构建环节包括经常使用Llama-3-70B-Instruct重写文本指令以顺应语音,生成适宜语音的繁复照应,并经常使用CosyVoice-300M-SFT和VITS启动语音分解。该数据集结合了Alpaca的50,000条条目和UltraChat的150,000条条目,涵盖了宽泛的主题,为LLaMA-Omni在语音交互义务上的训练提供了松软基础。

04、未来展望

LLaMA-Omni在InstructS2S-Eval基准测试中的体现优于之前的模型,特意是在语音到文本和语音到语音指令的内容微格调分歧性上。模型在语音品质和照应提前之间提供了良好的掂量,提前低至226毫秒。与其余模型相比,LLaMA-Omni的文本和语音同时生成才干清楚提高了解码速度。案例钻研显示,LLaMA-Omni能够提供更繁复、更详细且更有协助的照应,特意适宜语音交互场景。

总之,LLaMA-Omni作为一种翻新的AI模型架构,不只在低提前和高品质的语音交互方面成功了打破,还经过创立专门的数据集和优化训练环节,推进了基于LLMs的语音交互技术的开展。其出色的功能和高效的训练环节,为未来的语音交互模型的极速开发奠定了基础。

参考:

基咯咯

原文链接:​ ​​ ​

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:https://duobeib.com/diannaowangluoweixiu/6172.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号