不用人类介入,AI只要观看60小时视频就能分辨超过20种乐器的声音
2018-07-10 15:42:55 | 来源:ithome | 投稿:阿呆 | 编辑:dations

原标题:不用人类介入,AI只要观看60小时视频就能分辨超过20种乐器的声音

MIT发展出名为PixelPlayer的人工智能系统,由演算法自我监督观看60小时的音乐表演视频后,不需要人类介入训练,便可以自动分辨出20种乐器的声音,并且理解声音与画面中乐器的对应关系,提供使用者独立编辑声音的能力,对于旧音乐再制有很大的帮助。

MIT的电脑科学与人工智能实验室(CSAIL)发展出以深度学习分辨乐器表演视频,除了能分离出特定乐器声音外,还能对这些声音进行个别编辑的系统。这个称为PixelPlayer的系统,经过60小时的音乐会视频训练,可以分辨超过20种乐器,论文第一作者Hang△Zhao提到,尽管该系统现在还无法细腻的处理类似声音之间的细微差异,像是PixelPlayer现在还分不出中音萨克斯风与男高音的差别,但只要有越多的训练资料,系统就能分辨越多种类的乐器。

PixelPlayer使用深度学习的方法,以类神经网络在视频里寻找资料的模式,系统包含3个类神经网络,其中一个用于视频的视觉分析,第二个用于视频的声音分析,第三个合成器能将特定的像素与声音关联,并独立分离出来。系统会先定位出视频中发出声音的区域,再将声音分离出来,并与这些像素关联。

研究团队提到,这个方法使用自我监督(Self-supervised)的深度学习,人工智能在没有人类介入告知声音与乐器的关联,就能自动理解之间的关系。过去分离声源的研究通常专注在声音上,而这也需要大量的人为标签,但PixelPlayer则是额外加入的视觉要素,以视觉元素取代人为标签,以达到人工智能自我接督学习的目的。

Hang△Zhao表示,他们原本预期系统的最佳案例,就只是让系统分辨不同乐器的独特声音,而现在却可以额外在空间中,以像素等级定位出乐器,这样的能力开启了更多可能,使用者可以直接通过点击视频中的乐器,进行声音编辑。

这项研究的贡献在于,有助于工程师提高旧音乐的录制音质,制作人甚至可以分开聆听不同乐器演奏的声音,除了可以单独调整个别音量外,还可以于后制阶段,更换演奏的乐器,另外,这项研究也能被应用在机器人开发上,使其能更好的理解环境物体所产生的声音,像是正在吠叫的狗或是发出引擎声的车辆。

?

MIT开发的AI音乐编辑系统:

tags:

上一篇  下一篇

相关:

人类只要示范游戏一次,OpenAI靠增强学习让AI青出于蓝胜于蓝

人工智能越来越会玩游戏了,除了Dota2全人工智能代理人(Agent)OpenAI△Five团队已经可以打败人类外,OpenAI的最新研究,人工智能代理人只要看过人类示范游玩蒙特祖马的复仇(Montezuma’s△Revenge)一次,便能学习

人工智能诊断脑瘤准确度达 87% 击败人类顶尖医生 | 香港 UNWIRE.HK 玩生活.乐科技

据北京新华社报道,过去星期日于北京曾举办一场有关利用神经影像诊断大脑肿瘤和预计血肿扩充的比赛。在经过两轮赛事后,其中一个参赛的人工智能系统 BioMind 以 2:0 打败在场所有顶尖医生。该人工智能系统由北京天坛

Google给他7天修正Chrome套件上的缺失,却莫名在2小时后将之移除

Firefox附加元件Adblock△Plus原始作者,同时也是Eyeo△GmbH共同创办人的Wladimir△Palant,在自己的博客上抱怨Google发送警告信给他,指称他开发的浏览器Chrome套件不符合要求,需要在7天内修正完毕,但就在2个半小

宁波博物馆展出孔庙祭祀礼乐器 推荐

来源:宁波日报文:陈青图为宁波孔庙祭祀礼乐器展现场(周建平摄)作为宁波博物馆开馆十周年庆的大型原创展览之一,“国之祀典——清代宁波孔庙祭祀礼乐器展”日前开展。通过该馆珍藏的225件宁波府县孔(文)庙旧置祭

宁波博物馆展出孔庙祭祀礼乐器 推荐

来源:宁波日报文:陈青图为宁波孔庙祭祀礼乐器展现场(周建平摄)作为宁波博物馆开馆十周年庆的大型原创展览之一,“国之祀典——清代宁波孔庙祭祀礼乐器展”日前开展。通过该馆珍藏的225件宁波府县孔(文)庙旧置祭

站长推荐: