机器翻译和人工翻译实质是两个赛道 专访字节跳动王明轩

  • 电脑网络维修
  • 2024-11-14

技术的提高,往往象征着行业的退化发现了新的方向。翻译行业也不例外。随着环球化进程不时放慢,人们在启动涉外优惠时都离不开跨言语的交换。机器翻译的出现极大地扩大了翻译的运行场景,诚然它还远远称不上完善,但却在人类应战巴别塔的路上跨出了松软的一步。特邀字节跳动AI Lab机器翻译担任人王明轩,聊一聊机器翻译开展的这些年、那些事。

从基于规定,到基于统计模型,再到基于神经网络

机器翻译的开展与计算机技术、消息论、言语学等学科的开展严密相关。进入21世纪,随着配件才干的优化和算法的优化,机器翻译技术迎来了绝后的跃进,并成功迈出象牙塔,走上了普惠之路。

:纵观历史,机器翻译教训了哪些关键的开展节点?

王明轩: 机器翻译实质是一个十分新鲜的疑问,机器翻译的历史可以追溯到17世纪笛卡尔、莱布尼茨等哲学家提出的「通用言语」。1946年等计算机正式降生后,人们希冀计算机能将一种言语翻译成另一种言语。美国迷信家瓦伦·韦弗在《翻译备忘录》中正式定义了机器翻译的概念和思维。这一时间,在热战背景下,美苏两国也基于搜集消息的要求,投入了少量资金用于机器翻译相关钻研。

一开局大家相对较失望,感觉这事很快就可以搞定了。第一版的翻译系统十分便捷,关键是基于词典,比如把“太阳”翻译为“sun”,但这种词对词的翻译很快遇到了瓶颈,由于一词多义的现象比拟多,比如“bank”,既可以是“银行”,也可以是“河岸”,详细语境中会面临很多选词的困境。 结合言语学家制订的语义规定可以处置一局部歧义,但开展到前期,规定越多,抵触的中央也会越多,系统会越来越复杂,依然无法处置疑问。

1966年美国发布了报告《言语与机器》,片面否认了机器翻译的可行性,并倡导中止对机器翻译名目的资金允许。受此影响,机器翻译堕入高潮期。

直到90年代,IBM提出基于词对齐的翻译模型,标记着现代统计机器翻译方法的降生。基于统计的机器翻译原理很便捷,比如要在语境中判别bank应该翻译成“银行”还是“河岸”,那就启动少量的相关语料统计,会发现高低文里有“钱”相关的,那就更有或许翻译成“银行”,高低文里提到“河流”,那更或许对应的是“河岸”。如此一来, 不用词典与文法规定,而是依照概率来判别详细场景下的语义。这是划时代的变动,机器翻译的品质失掉了渺小的优化。 很快,机器翻译开局在很多适用场景落地。

从1993到2014年基本都属于统计的时代,但虽说是基于统计,还是要求人工去定义很多特征、模板,再进一步设计细节,因此也不是十分灵敏,模型的能量也不是很弱小。

然后到了神经网络时代,神经网络翻译从模型上说关键蕴含编码器和解码器。编码器把源言语经过一系列神经网络变换后示意成一个高维向量,解码器担任把这个高维向量从新解码成目的言语。2014年Seq2Seq的提出,让神经网络翻译缓缓开局比统计机器翻译做得更好。

到2017年时,谷歌提出Transformer,模型更大、结构更灵敏、并行化水平更高,这进一步优化了翻译品质。同年,AlphaGo的胜利也让大家对人工智能的信念更充沛。 也正是在2017年之后,机器翻译的产业化迎来了迸发期 ,直到如今,全体大框架没有出现太大变动,但小细节上出现了很多翻新。

应战“巴别塔”

从词典婚配,到结合言语学专家常识的规定翻译,再到基于语料库的统计机器翻译,以及目前干流的神经网络机器翻译,相比之前,机器翻译的品质有了飞跃式的优化,但照旧面临着重重应战。

:目前机器翻译面临的关键应战在哪里?

王明轩: 应战其实还比拟多。

第一, 如何做稀缺语种的机器翻译 。这是机器翻译从降生以来不时就面临的疑问。语种越小,数据量越少,语料的稀缺会是常年的应战。

第二, 如何做多模态的机器翻译 。近年来,咱们经常要求做语音翻译、视频翻译,理想上这类翻译要求AI做一些前处置之后再做翻译。假设AI处置错了,翻译就或许出现失误。再比如,在同声传译的场景,通常是边说边翻,拿不到完整的高低文消息。这在多模态翻译中都是经常出现疑问。

第三, 最为实质的疑问在于,目前的机器翻译还是基于数据驱动,并没有无了解层面做得更为深化 。模型的学习照旧是依托言语的奉献,而非真正地理解语义。这一点极大地局限了机器翻译的下限。

:火山翻译作为字节跳动旗下机器翻译品牌,如何应答语料稠密疑问?

王明轩: 有两个比拟间接的方法。

第一种是扩大语料,努力让稀缺语料“不再稀缺”。这种思绪是,经过一些模型,尽或许从互联网上失掉语料。比如冰岛语,咱们能搜集少量冰岛语的单语语料,在互联网上就可以去搜集与单语语料相近的英文文本,咱们去找这种或许对齐的语料,构成双语去对。当然咱们有时也用人工标注,但更多的是靠智能的方法自行参与。

第二种是应用言语的特性。大家生存在同一个星球,只管经常使用的言语不同,但其真实形容同一个环球,因此言语在上档次上是有很多特性的。咱们会借助一些迁徙学习或许预训练的方法来处置这类疑问,比如让英语的模型去协助法语的模型,或许让德语的模型协助法语的模型。关键就是这两个思绪。

:在多模态的机器翻译中,要缩小噪声搅扰的话,火山翻译采取了哪些应答战略?

王明轩: 应答噪声搅扰的话,首先,启动了多种模态的 联结建模 。咱们会拿语音信号和文本信号一同去做下游的义务,这样一来,失误传递会缩小很多。,构建多模态的一致语义在学术界也是十分炽热的话题,所以咱们也会排汇其余畛域的很多物品。

其次,咱们在文本这块也会做很多鲁棒性训练,尽量让模型在有失误输入的状况下,还能保障正确的输入,或许不扩展这种失误,相当于把智能纠错和机器翻译做到了一个模型外面。由于人其实是有这种智能纠错才干的,比如人工译员在听到失误的消息时,会启动智能纠正,所以咱们在模型外面也会思索这些消息。

:同声传译对延时的要求很高。然而假设没有结合高低文的语境或许听完完整的语义,准确率又很难保障。机器翻译如何平衡这两者之间的矛盾?

王明轩: 这一点在工业界很有应战性,由于不只关乎延时和准确率的trade off,实践上要求优化的中央更多。

比如在某些会议场景中,翻译字幕要求展如今大屏幕上,观众接受字幕的速度也是关键疑问之一,包括每次字幕展现的长度、字幕弹出的频率,都相关到如何读起来更舒适。其中有很多细节要求咱们重复和产品经理沟通,深化用户调研来看全体满意度。因此, 这不只仅是准确率的疑问,要把用户的实践经常使用体验都作为因素思索出来,再来调整模型。

此外, 延时或许是用户满意度的目的之一,但延时也并非越短越好。 通常有个适宜的gap反而更好。由于延时很短的话,字幕弹出的速度也会很快,用户的接受效果反而不太好。在这方面,咱们也会自守业界的很多成熟做法,比如灵活控制字幕翻译的距离。总体而言,这是一个十分工程化、产品化的疑问。

未来趋向

机器翻译依然不是完美的,但从业者们正在努力让其变得品质更高,可用性更强,适用性更广。让咱们来观察一下它的开展趋向,尤其是当机器翻译与专业译员出现“碰撞”时,翻译服务场景又会发生哪些化学反响。

:随着技术的开展,机器翻译能否会衍生出更多幽默的运行场景?

王明轩: 之前咱们推出的火山翻译AR眼镜就是相似的尝试。往年谷歌I/O大会上压轴发布的AR翻译眼镜也是很无心思的运行,经常使用者佩戴后可以实时看到对话者的译文,类比字幕效果。

这其实都反映出了一种比拟豪华的理想: 咱们宿愿大家能生存在一个沟通无阻碍的环球。 比如:出国旅行时,戴上眼镜就可以了解任何言语的文字揭示,你看到的路牌是德语的,而显示在眼镜上的是中文。日常交换时,他人跟你谈话,对话消息智能变成你所了解的文字,显示在眼镜下方。这都是能更有效地失掉消息的场景。

:久远来看,机器翻译将如何开展?

王明轩:运行方面 ,我感觉机器翻译或许会 和多模态运行结合得更为严密 ,比如视频内容、音频内容的翻译需求会越来越多。另外,机器翻译或许会更多地 与业务出海、文明出海咨询在一同。 由于国际很多公司都在踊跃地启动海外业务的扩张,我以为这个畛域会对机器翻译的开展起到很大协助。

技术方面 ,我能看到的曾经在出现的趋向是: 一是大数据和大模型的训练 。从事这一畛域的人越来越多,模型越来越大,数据量也越来越大,很多人以为这种变动有或许会给机器翻译的才干带来质变。 二是翻译和模态的结合 。不止在翻译方面,业界很多人都在试图构建不同模态的一致语义示意,之前几年,不同模态之间界限还比拟明显,大家交换相对也少。如今,模型越来越分歧。未来或许出现一个模型,既能做文本翻译,也能做语音翻译,甚至能做视频翻译。

:未来,机器翻译能否有或许在特定场景中齐全取代人工翻译?

王明轩: 按目前这种做法必需是取代不了人工的。不过我感觉机器翻译和人工翻译或许不属于一个赛道。

机器翻译的特点,一是速度十分快,二是可以规模化,所以它适宜处置的是海量且要求及时处置的消息。举个例子,假设如今有一千万个视频要从英语翻译成法语,那么纯靠人工是不太能做到的,然而机器可以做。这一点就可以让机器在它的赛道里施展很关键的作用,常年看来是大有裨益的,由于它宽敞了整个市场,让跨言语的市场变得更大。

然而关于很精细的翻译场景,机器翻译或许就力有不逮。就像有人提到的,机器翻译能翻得了《红楼梦》吗?我以为,这就不属于机器翻译的义务范围。小说或诗歌之类的翻译,这一类型的翻译必要求依仗专家。还有规格很高的会议同传,也必需要求专业译员担任,而无法能是机器。但在一些关键性不是很高的会议上,机器翻译的老本长处就会展现出来。

机器翻译跟专业译员,两者附属赛道不同,辨别还是很显明的。不过某种水平上,两者也存在互帮互助的相关。 这体如今:一方面,机器翻译要求的语料就是专业译员消费的。专业译员在上班环节中不时地消费少量的语料,这些语料能够继续协助机器翻译去优化才干。另一方面,机器翻译也可以帮人减轻累赘,处置要求没有那么高的义务。如今也有很多译员在做译后编辑,很多翻译公司让机器先做翻译,译员再做编辑,效率也能因此大幅优化。

嘉宾引见

王明轩,字节跳动AI-Lab机器翻译团队担任人,钻研方向关键为机器翻译和人造言语处置。在机器翻译畛域,宣布包括 ACL、EMNLP 等顶级会谈论文超越40 篇,屡次拿到 WMT等国际翻译评测较量第一。同时还担任EMNLP2022资助主席,和NeurIPS 2022、NLPCC 2022、AACL2022 等会议畛域主席。

栏目引见

“T前线”是内容中心专为技术人物开设的深度访谈栏目之一,经过约请技术界内的业务担任人、资深架构师、资深技术专家等对当下的技术热点、技术通常和技术趋向启动深度的解读和洞察,推进前沿科技的流传与开展。

  • 关注微信

本网站的文章部分内容可能来源于网络和网友发布,仅供大家学习与参考,如有侵权,请联系站长进行删除处理,不代表本网站立场,转载联系作者并注明出处:http://www.duobeib.com/diannaowangluoweixiu/5210.html

猜你喜欢

热门标签

洗手盆如何疏浚梗塞 洗手盆为何梗塞 iPhone提价霸占4G市场等于原价8折 明码箱怎样设置明码锁 苏泊尔电饭锅保修多久 长城画龙G8253YN彩电输入指令画面变暗疑问检修 彩星彩电解除童锁方法大全 三星笔记本培修点上海 液晶显示器花屏培修视频 燃气热水器不热水要素 热水器不上班经常出现3种处置方法 无氟空调跟有氟空调有什么区别 norltz燃气热水器售后电话 大连站和大连北站哪个离周水子机场近 热水器显示屏亮显示温度不加热 铁猫牌保险箱高效开锁技巧 科技助力安保无忧 创维8R80 汽修 a1265和c3182是什么管 为什么电热水器不能即热 标致空调为什么不冷 神舟培修笔记本培修 dell1420内存更新 青岛自来水公司培修热线电话 包头美的洗衣机全国各市售后服务预定热线号码2024年修缮点降级 创维42k08rd更新 空调为什么运转异响 热水器为何会漏水 该如何处置 什么是可以自己处置的 重庆华帝售后电话 波轮洗衣机荡涤价格 鼎新热水器 留意了!不是水平疑问! 马桶产生了这5个现象 方便 极速 邢台空调移机电话上门服务 扬子空调缺点代码e4是什么疑问 宏基4736zG可以装置W11吗 奥克斯空调培修官方 为什么突然空调滴水很多 乐视s40air刷机包 未联络视的提高方向 官网培修 格力空调售后电话 皇明太阳能电话 看尚X55液晶电视进入工厂形式和软件更新方法 燃气热水器缺点代码

热门资讯

关注我们

微信公众号