鸡尾酒效应挑战达成,Google打造能分辨特定人声的模型
2018-04-14 02:02:42 | 来源:ithome | 投稿:小柯 | 编辑:dations

原标题:鸡尾酒效应挑战达成,Google打造能分辨特定人声的模型

图片来源:

Miki△Rubinstein

Google近日用深度学习打造出可以在有许多声音的复杂环境下,将特定人声分离,单独分辨每个人声音的模型,在有背景声音或是环境噪音的情况下,也能将背景音的影响降到最低,分辨出主要讲话的人声。

鸡尾酒效应一直是语音分辨研究的问题之一,对人类而言,在吵杂的环境中,将聆听的注意力放在特定的人声上并不困难,但是对语音分辨仍然是一大挑战,因为模型必须先将语音分离成单独的语音来源,才能分开分辨不同的人声。

Google打造了深度学习视听模型,来隔离单一的语音讯号和混合的声音,像是在吵杂的环境中,或有有多个不同人声的环境,增强特定对象的人声,将其他声音去除,让模型专注于分辨单一特定的人声。

Google表示,这个模型最大的突破在于,可以将输入的视频分离成视觉和听觉特征,通过视觉特征来分辨当下正在说话的人,经过比对之后,判断出视频中正在说话的人,简单来说,模型通过嘴巴动作和产生的声音,来建立关连,协助辨认视频中哪个部分的声音与哪一个人对应,经过声音分离模型之后,会输出个别的声音资讯。

为了训练分离声音的模型,Google收集了Youtube平台上大约10万支演讲的视频,从这些视频中,撷取较清楚的语音且只有单一演讲者出现在画面中的视频,像是没有背景音乐、观众声音或是其他演讲者的视频,经过过滤后,大约用了2,000小时的视频资料来训练模型。

接着,Google通过这些资料产生合成鸡尾酒派对(Synthetic△cocktail△parties),将Google语音资料库AudioSet和多个人脸视频混合到资料集,再利用这些数据来训练卷积神经网络模型,把合成鸡尾酒派对的资料集分解成独立的语音流,来训练模型分离不同的声音,分辨独立的人声。

tags:

上一篇  下一篇

相关:

Netflix开源内部金丝雀自动化测试工具,Google把它变成跨云持续派送的利器

Netflix与Google共同释出开源的自动化金丝雀分析(Automated△Canary△Analysis,ACA)工具Kayenta,该服务能帮助开发团队降低快速部署可能发生的风险,以应付现今各种规模以及持续交付的工作。Netflix的资深软件工程

可将重复性工作自动化,Google试算表终于能录制巨集

Google近日宣布更新Google试算表,推出录制巨集的功能,记录使用者操作的过程,让使用者不用重复设定同样的格式,可以省去重复性的工作。假如使用者要为新汇入的资料设定格式,或是通过多张试算表建立相同的图表,重

Google相簿能为宠物制作相册和电影了,还能用表情符号搜寻照片

继去年10月Google相簿推出可以分辨宠物的功能后,Google近日又为爱猫和爱狗人士在相簿中,新增多项有关宠物的功能,包含帮自动帮宠物制作相册和电影、拍摄后通过Google?Lens分辨品种,以及使用者可以用表情符号或是品

加速减少碳排放量研究,Google建立统一标准的全球发电厂开放资料库

Google近日与世界资源研究机构、全球能源观测台、瑞典皇家理工学院、荷兰格罗宁根大学合作,建立一套全球发电厂的资料库,将所有发电厂的资料标准化,来鼓励厂商能在未来采用通用方法,提交发电厂的特征,像是位置、

Amazon与Google的智慧喇叭竞争扩大至印度市场

图片来源: Google 继Amazon在去年10月宣布将于印度市场推出Echo、Echo△Plus与Echo△Dot等智慧声控喇叭产品之后, Google也在本周二(4/10)跟进Amazon的脚步,旗下的Google△Home与Google△Home△Mini进军印度。目前

站长推荐: