脸书机器翻译有新突破,即使没有大量训练资料AI也能学会翻译
2018-09-04 18:00:14 | 来源:ithome | 投稿:伊文 | 编辑:dations

原标题:脸书机器翻译有新突破,即使没有大量训练资料AI也能学会翻译

脸书在EMLNP△2018上发表了最新的机器翻译成果,使用逐字初始化、语言建模和反向翻译三个步骤,作为无监督机器翻译的重要原则,而这样的方法比过去最先进的非监督训练方法,成果还要高10个BLEU点(一种衡量机器翻译准确性的方式)。对机器翻译来说,改进BLEU点数1点已经算是了不起的进展,而脸书的最新研究成果,BLEU点数大幅成长10点。

脸书为了想让平台上数十亿人,打破语言障碍互相交流连结,致力发展自动语言翻译技术。为了做到这一点,机器翻译系统需要存取大量的中文与英文相同翻译文本,目前机器翻译受到训练资源的限制,仅适用在能轻易获得大量翻译的小型语言子集。

脸书认为,在训练机器翻译模型时,不存取任何翻译资源的非监督训练方法,是必要的下一步。脸书新发表的这个机器翻译研究,在非监督式方法有显着的改善,成果非常于监督方法使用10万笔参照翻译,这对于机器翻译是一个重要的里程碑,尤其是世界上大多数的语言,可用于翻译训练的资源严重匱乏,以至于无法适用于现行系统。脸书提到,乌尔都语是其中一种缺乏资源的语言,而脸书的方法,可以让英文与乌尔都文只能存取各自不相关文本,就可以相互进行翻译。

脸书的第一步是要让系统学习双语辞典,将词汇与其他语言相对应的翻译进行连结。脸书让系统为每种语言中的每个单词学习单词嵌入(Word△Embedding),单词嵌入训练是使用上下文来预测单词周围的单词,并以向量来表达这些单词间的关系。这个方法虽然简单,却可以捕捉到有趣的语意结构,像是英文Kitty最近的邻居Cat,Kitty会接近Animal的嵌入,而非其它很少同时出现如Rocket这样的单词。

即便是不同的语言,由于世界各地的人们都拥有相同的物质世界,单词嵌入都具有相似的邻近结构,脸书举例,像是英文中的Cat(猫)和Furry(毛皮)之间的关系,就像是西班牙文Gato(猫)和Peludo(毛茸茸),因为他们出现的频率和上下文使用时机都是相似的。脸书旋转这些单词嵌入的表达向量,以匹配对齐另一种语言单词嵌入,如此可以推断出一个非常准确的双语词典,无需存取任何翻译,并且基本上可以逐字翻译。

但使用以非监督式推断的双语词典,逐字翻译句子并不是一个很好主意,单词可能会遗漏、无序或是一般的错误。不过也并非完全无用,因为其中包保留了大部分的含意,脸书以单语资料训练的语言模型,对逐字翻译句子进行修正。因此只要有乌尔都语大量的单语资料集,就能和英文语言模型一起训练乌尔都语的语言模型。

有了语言模型和逐字初始化,就已经具备了翻译系统的雏形,可以把大量的乌尔都文翻译成英文,而这些机器翻译的句子,会再被用来训练从英文到乌尔都文的反向机器翻译系统。反向翻译的概念最早在2015年被提出来,但当时使用在监督学习环境中,而脸书把这个技术首次用在非监督式系统中。

经过这些程序得到了乌尔都文语言模型,为了取得更好的结果,脸书将人工翻译的句子,与机器翻译的句子进行校对,便能训练出从英语到乌尔都语的翻译系统。这时脸书把更多的英文句子翻译成乌尔都文,这些翻译的乌尔都文句子,可以再帮助改进乌尔都文到英文的机器翻译系统,这样的迭代循环,可以让系统的翻译能力越来越好。

脸书经过这些实验流程,确立了机器翻译必经的三个步骤,为逐字初始化、语言建模和反向翻译。脸书应用这样的原则,推导出不同的模型,其中一个是非监督神经模型,虽然产生的句子并不理想,但是可以用于产生反向翻译的训练资料,另一个则是传统基于计数的统计方法,称为短语(Phrase-based)机器翻译,这类模型对于低资源语言翻译特别有用。

脸书结合这两种模型,以获得双方的优点,翻译结果明显比先前非监督机器学习方法还好,特别是在英文对法文以及英文对德文的翻译,成果提高了10个BLEU点。即使在关系较远的语言翻译,像是英文对俄文,或是资源匱乏的英文对罗马尼亚语以及英文对乌尔都文,都比起过去的非监督方法好许多,甚至超越监督式方法。

tags:

上一篇  下一篇

相关:

Google免费释出可分辨儿童色情内容的AI工具

Google通过内容安全API将这项工具提供给非营利组织及合作伙伴,例如网际网络观察基金会(Internet△Watch△Foundation)。 图片来源: IWF 为防止儿童色情及性侵犯的视频或照片通过网络散布,Google周一免费释出人工

五眼联盟:公众隐私并非绝对,企业有义务依法提供政府请求的资料

澳洲、美国、加拿大、英国和新西兰组成的五眼联盟(Five△Eyes),确立了关于证据和加密资料司法原则。相关私人企业有责任在合法的情况下,向政府提供加密证据资料,而为避免侵害公民权利,需要保证资料经过正当程序

Airbnb开源可减少50%到75%产品程式码的Android开发框架MvRx

Airbnb对外开源了内部几乎所有应用程序开发,都会用上的Android应用程序框架MvRx(发音为Mavericks)。MvRx提供了一个框架,无论是简单或是复杂的Android应用程序,工程师都能以比从前更轻易的方式进行开发工作,虽然

微软更新SharePoint行动App,靠AI让搜寻变得更聪明

图片来源: 微软 微软近日宣布,加强办公协作软件SharePoint的功能,开始在App版本中整合AI,除了能改善搜寻功能外,也让导引流程变得更顺畅。微软表示,增进搜寻服务后的SharePoint△App,可让使用者省下过滤资讯时间

黑客售中国酒店客户资料 1.3 亿人资料卖 8 比特币 | 香港 UNWIRE.HK 玩生活.乐科技

据外媒 《Bleeping Computer 》报道,有黑客在中国暗网出售超过 1.3 亿人的个人资料,以换取 8 个 Bitcoin。( 总值$ 55,391 美元,折合约港币$ 434,361 元,据截稿时 Investing.com 提供的价格 ) 现在不少黑客在暗网

站长推荐: