突破语言沟通障碍,脸书自动机器翻译以三大策略再新增24种语言
2018-09-13 18:30:13 | 来源:ithome | 投稿:阿呆 | 编辑:dations

原标题:突破语言沟通障碍,脸书自动机器翻译以三大策略再新增24种语言

脸书现在以神经机器翻译(Neural△Machine△Translation,NMT)技术,支援每天将近60亿次翻译服务,虽然脸书在使用神经网络后,比起传统方法,翻译模型的速度与品质有了大幅改进,但是技术终究遇到瓶颈,使他们无法再继续增加翻译的语言数量。

在2018年,脸书语言和翻译技术(Language△and△Translation△Technologies,LATTE)小组,决定进行改变,实现“没有任何语言被遗弃”的目标,增加包括塞尔维亚、白俄罗斯及阿姆哈拉语等24种语言翻译。而翻译少数语言存在两种挑战,第一,这些语言缺乏训练资源,可能没有足够现成人类翻译的文本,第二个挑战,他们需要找到能快速训练系统,并产生可用翻译的方法。

脸书主要采取了3个策略,来提高这些少数语言翻译的BLEU分数(一种衡量机器翻译准确性的方式)。第一个策略无可避免的还是需要增加训练用标记资料,脸书的贴文和其他的文本非常不同,通常更短也更不正式,包含许多缩写、俚语和拼写错误。为了要让演算法学会翻译这些文字,需要先提供正确的学习范例,因此脸书抓取平台上的公开贴文,请专业的翻译人员进行手动标记。

脸书自动化抓取流程,自动选取并准备贴文,每周批次请不同的翻译单位提供专业翻译,总共为25种语言标记了数百万个字。为了衡量有效性,脸书量测训练前与训练后的BLEU分数,发现15个语言平均上升了7.2 BLEU,每一万个翻译句子配对,能平均增加演算法翻译品质1.5 BLEU。

除了增加域内标记资料外,第二个策略则是使用半监督的神经机器翻译技术与资料增强方法,以生成额外的训练资料。除了之前文章的提到的反向翻译,为了训练阿姆哈拉语到英语翻译系统,脸书先训练英语到阿姆哈拉语的基本翻译系统,并用它将大量英语资料翻译成阿姆哈拉语,把这些翻译资料重新用作阿姆哈拉语到英语的训练资料。这样的方法在88%的情况下,平均提高了翻译品质2.5 BLEU。

另外,脸书还用了另一个与反向翻译概念类似的方法Copy-Target,意思是将目标翻译语言的部分单词换成来源语言,当要训练英语翻译至豪萨语系统,脸书会把部分对应的英语词汇换成豪萨语,让豪萨语翻译至豪萨语,并把这些翻译资料,做为英语翻译至豪萨语系统,额外的训练资料来源。在脸书的实验中,88%的案例平均改善了2.7 BLEU。

但半监督式的方法有其缺点,其大量依赖资料特征,在资料不准确时便会为模型带来干扰,脸书请了专业翻译产生大量的翻译资料,这让翻译模型翻译脸书贴文的结果,变得不像社交媒体上会出现的句子,为此,脸书加入了社交媒体的训练资料,并在训练中复制了多个副本,增加对整体训练资料的影响,以帮助产生更高品质的翻译。脸书提到以反向翻译加上Copy-Target方法为基础,在100%的情况下社交媒体贴文修正,可使翻译品质提高0.4 BLEU。

第三个策略,脸书发现多个方言之间有相关性,当把特定方言的翻译方向,结合其他的翻译方向,将比单纯双语互相翻译的训练方式成果还要好。脸书提到,他们为了改善从白俄罗斯语到英语的翻译,利用了白俄罗斯语和乌克兰语之间的关系,额外建立了一个多语言系统。经过实验,多语言系统可以受惠同一语言家族的方言相似性,比起双语翻译基准,翻译品质高了4.6 BLEU。

tags:

上一篇  下一篇

相关:

美股三大指数个别发展

建筑设备生产商Caterpillar上季盈利好过市场预期,并上调全年盈利预测,美股三大指数个别发展,道琼斯工业平均指数25461点,升10点;纳斯达克指数7706点,跌30点;标普五百指数2815点,跌2点。

美股三大指数全周下跌0.2%至2.6%

纽约股巿下跌。投资者继续注视国际贸易形势发展。道琼斯工业平均指数收巿报25916点,下跌79点。纳斯达克指数收巿报7902点,下跌20点。标普五百指数收巿报2871点,下跌6点。总计整个星期,三个指数下跌0.2%至2.6%。

微博借钱审核要多久 [热事件]

玩微博的大多数是年轻人,相信不少网友在使用微博时,已经发现微博也可以借钱了。我们在申请微博借钱时,一般都会比较关注下款速度。那么,微博借钱审核要多久呢?下面小编就带大家来了解一下微博借钱的相关信息吧。

Samsung CEO 公开新策略 新功能会在中阶手机首先推出 | 香港 UNWIRE.HK 玩生活.乐科技

在日前接受美国传媒 CNBC 访问时,Samsung 流动装置部门总裁高东真透露,集团将会就中阶手机的销售策略作出重大转变。该名 Samsung 高层表示,以往新功能会率先在高阶的 Galaxy S 和 Note 系列出现,未来创新的功能将

脸书机器翻译有新突破,即使没有大量训练资料AI也能学会翻译

脸书在EMLNP△2018上发表了最新的机器翻译成果,使用逐字初始化、语言建模和反向翻译三个步骤,作为无监督机器翻译的重要原则,而这样的方法比过去最先进的非监督训练方法,成果还要高10个BLEU点(一种衡量机器翻译准

站长推荐: