挑战方言和口语的机器翻译难题,微软靠迁移学习解决相对应语句训练资料不足问题
2018-05-22 11:45:51 | 来源:ithome | 投稿:乐乐 | 编辑:dations

原标题:挑战方言和口语的机器翻译难题,微软靠迁移学习解决相对应语句训练资料不足问题

继微软3月中发布AI机器中翻英程度达到人类专业水准之后,最近又持续挑战机器翻译的难题-方言和口语,通过迁移学习将训练资源高的语言转移到资源低的语言上,搭配半监督式学习方法,解决了对应语句训练资料不足的问题,成功开发出高品质的方言和口语翻译器。

机器翻译通常依赖两种语言的平行对应语料资料库来训练模型,像是前阵子中翻英的模型即用了数千万个平行语句当作训练资料,不过,由于大多数的方言和口语都没有足够的相对应语料当作训练资料集,翻译方言和口语一直是机器翻译的一大难题之一。

除了没有足够的训练资料之外,方言和口语也没有固定的风格和形式,与正式的书面文件和社交媒体上的文字都不相同,要取得平行语句也是更加困难。

为了解决这个问题,微软利用半监督式的方法来训练翻译神经网络,只需要数千对平行语句当作训练资料,就能产生高品质的翻译结果。

微软首先利用了迁移学习的方法,将跨多种语言资源的词汇和句子表示成一种目标语言,不同语言来源将会包含资源高和低,系统的目标即是要让学习模型共享来源,进而增强资源较低的语言,微软的系统架构针对神经机器翻译框架调整了2个地方,进而让半监督式的方法变得可行。

在词汇的部分,微软通过通用词汇表示(ULR)来共享不同语言的词汇,另外,微软还用了专家模型来代表所有语言源的句子共享,通过这两项修改,能够让较少资源的语言用词汇和句子特征,来对应到资源较高的语言中。

在微软的实验中,微软首先用一般的方式训练模型,来进行多语言翻译,模型使用了6,000个平行句子来学习翻译罗马尼亚语和英语,以及拉脱维亚语和英语。

接着,微软则是先在高资源的语言上训练模型,再套用到低资源的语言上,并进行微调,该模型也是用了罗马尼亚语对应英语的6,000个平行句子训练,经过微调,模型可以在2分钟内将预先训练好的模型转移到新的低资源语言上。

tags:

上一篇  下一篇

相关:

微软收购AI语言新创要让Cortana讲话更像人

示意图,与新闻事件无关。 图片来源: 微软 微软周一宣布收购AI新创公司Semantic△Machines△,希望使人工智能(AI)助理Cortana的人声更逼真。微软AI△Research技术长David△Ku指出,现行的软件机器人和智慧助理只

IoT双周报第40期:微软祭出智慧边缘运算新战略,拥抱开源释出Azure IoT Edge核心程式码

Azure△IoT△Edge△Runtime程式码是用来执行、启用Azure△IoT△Edge边缘运算服务底层OS上的一支程式,其实就是Edge层OS,任何装置只要装上这个OS,就等于是具备了IoT△Edge能力,以及串连云端的功能。微软将IoT△Ed

微软将热门SignalR函式库放上Azure,以云端架构加持网页即时功能

SignalR是个热门的开源函式库,用来支援像是协作文件这样的即时互动网页功能,而现在微软把SignalR放上云端,推出Azure△SignalR服务,让开发者不只可以更轻松的开发网页即时功能,且也不需要处理容量配置、扩展或是

强化Auzre生态系,微软发表自家内容交付网络

微软宣布加入Verizon和Akamai的内容交付网络(Content△Delivery△Networks,CDNs)战局,现在Azure△CDN在33个国家提供54个全球边缘网络连接点(Edge△Point-of-Presence),以及16个区域型快取网络连接点,总体覆盖

微软加强Azure资料库资安功能,SQL弱点评估功能上线

图片来源: 微软 欧盟最严格个资保护法GDPR即将要上路,违反者最高可能被罚2千万欧元,或是全球营业额的4%,在欧洲做生意的企业,得要上好发条,严阵看待资料保护的工作,大型云端业者也不例外。微软强化旗下Azure公

站长推荐: