鸡尾酒效应挑战达成，Google打造能分辨特定人声的模型

2018-04-14 02:02:42 | 来源：ithome | 投稿：小柯 | 编辑：dations

原标题：鸡尾酒效应挑战达成，Google打造能分辨特定人声的模型

图片来源:

Miki△Rubinstein

Google近日用深度学习打造出可以在有许多声音的复杂环境下，将特定人声分离，单独分辨每个人声音的模型，在有背景声音或是环境噪音的情况下，也能将背景音的影响降到最低，分辨出主要讲话的人声。

鸡尾酒效应一直是语音分辨研究的问题之一，对人类而言，在吵杂的环境中，将聆听的注意力放在特定的人声上并不困难，但是对语音分辨仍然是一大挑战，因为模型必须先将语音分离成单独的语音来源，才能分开分辨不同的人声。

Google打造了深度学习视听模型，来隔离单一的语音讯号和混合的声音，像是在吵杂的环境中，或有有多个不同人声的环境，增强特定对象的人声，将其他声音去除，让模型专注于分辨单一特定的人声。

Google表示，这个模型最大的突破在于，可以将输入的视频分离成视觉和听觉特征，通过视觉特征来分辨当下正在说话的人，经过比对之后，判断出视频中正在说话的人，简单来说，模型通过嘴巴动作和产生的声音，来建立关连，协助辨认视频中哪个部分的声音与哪一个人对应，经过声音分离模型之后，会输出个别的声音资讯。

为了训练分离声音的模型，Google收集了Youtube平台上大约10万支演讲的视频，从这些视频中，撷取较清楚的语音且只有单一演讲者出现在画面中的视频，像是没有背景音乐、观众声音或是其他演讲者的视频，经过过滤后，大约用了2,000小时的视频资料来训练模型。

接着，Google通过这些资料产生合成鸡尾酒派对（Synthetic△cocktail△parties），将Google语音资料库AudioSet和多个人脸视频混合到资料集，再利用这些数据来训练卷积神经网络模型，把合成鸡尾酒派对的资料集分解成独立的语音流，来训练模型分离不同的声音，分辨独立的人声。

tags：

Netflix与Google共同释出开源的自动化金丝雀分析（Automated△Canary△Analysis，ACA）工具Kayenta，该服务能帮助开发团队降低快速部署可能发生的风险，以应付现今各种规模以及持续交付的工作。Netflix的资深软件工程

Google近日宣布更新Google试算表，推出录制巨集的功能，记录使用者操作的过程，让使用者不用重复设定同样的格式，可以省去重复性的工作。假如使用者要为新汇入的资料设定格式，或是通过多张试算表建立相同的图表，重

继去年10月Google相簿推出可以分辨宠物的功能后，Google近日又为爱猫和爱狗人士在相簿中，新增多项有关宠物的功能，包含帮自动帮宠物制作相册和电影、拍摄后通过Google?Lens分辨品种，以及使用者可以用表情符号或是品

Google近日与世界资源研究机构、全球能源观测台、瑞典皇家理工学院、荷兰格罗宁根大学合作，建立一套全球发电厂的资料库，将所有发电厂的资料标准化，来鼓励厂商能在未来采用通用方法，提交发电厂的特征，像是位置、

图片来源: Google 继Amazon在去年10月宣布将于印度市场推出Echo、Echo△Plus与Echo△Dot等智慧声控喇叭产品之后， Google也在本周二（4/10）跟进Amazon的脚步，旗下的Google△Home与Google△Home△Mini进军印度。目前