捐出你的声音! Mozilla开源语音资料专案Common Voice开始募集正体中文音档
2018-07-19 12:14:26 | 来源:ithome | 投稿:米娜 | 编辑:dations

原标题:捐出你的声音! Mozilla开源语音资料专案Common Voice开始募集正体中文音档

为加速语音分辨相关技术及应用的发展,Mozilla去年发起开源语音募集专案Common△Voice(同声计划),在6月底开始募集正体中文音档,鼓励民众献声,以协助正体中文语音资料库的建立。

去年7月启动的Common△Voice专案,目的是收集训练语音分辨所需的语音资料,根据Mozilla统计,迄今已有超过200位开发者参与这项计划的软件开发,目前已募集112个国家超过2.4万人贡献的声音,搜集超过900个小时的语音资料,是全球仅次于磁带书LibriSpeech资料库的全球第二大开源语音资料库,预估年底可望成为全球最大的开源语音资料库。

Common△Voice专案已有60种语言版本,但由于人手不足,现在已开始收集15种语言的语音档,除了英文语音外,6月开始募集德语、法语、威尔斯语录音档,正体中文语音也在6月底开始募集。

带领Common△Voice专案的Mozilla开放创新部门数位策略师Michael△Henretty表示,语音分辨不仅要能分辨语言,还要能理解自然语言,由于分辨涉及深度学习,需要昂贵的运算系统、大量的语音资料,目前的语音助理技术大多掌握在几家大厂手中,商业化的语音分辨技术也忽略非主流语言的声音,Mozilla希望通过Common△Voice收集不同国家、语言、性别或年龄的声音建立一个全球最大的开源语音资料集,让语音分辨术能够民主化,也为没有受过教育、视障者、儿童或老年人等弱势族群降低资讯存取的门槛。

目前该专案已募集超过900小时的音档,以英语音档最多,去年底至今年初Common△Voice已开放英语资料集下载,为方便外界使用,采用CC△0授权。至于非英语的其他语言,法语及德语各有约50个小时音档,正体中文在6月底才刚开始募集,为亚洲地区第一个展开募集的语言,现在已有36小时音档。

非英语的语言资料集目前尚未开放,Michael△Henretty表示,英语的语音资料集在募集的6个月后开放,至于正体中文的资料集何时会开放,目前还没有明确的时程。Common△Voice专案希望未来募集足够的语音资料后可以稳定的发布语音资料集的更新版本。

Common△Voice专案的理想目标,是希望能够尽量收集到不同国家、不同语言,不同性别、年龄层的语音资料,如此才能让资料集发挥更大的效用,以该资料集打造的语音分辨技术能够正确分辨语音。至于需要募集多少的语音资料,Michael△Henretty认为如果能够募集到1万个小时,相信能让运用Common△Voice的开源语音资料集的语音分辨技术做到和Google相近的水准。?

专案收集到语音资料除了和Mycroft、Snips.AI、威尔斯的Bangor大学等新创或学校进行语音相关技术的合作外,资料也会运用在Mozilla的语音分辨引擎“深度语音分辨”(Project△DeepSpeech)专案上。

有兴趣捐出自己声音的民众可以前往网站,iOS用户可以下载app利用手机录制音档,Android用户则可以手机浏览器。如下图所示,民众进入Common△Voice募集网页后,可点选“说话”,依照指引对着麦克风念出荧幕上秀出的中文字句,或是点选“聆听”协助校正,系统会秀出一个中文句子并念出声音,使用者协助确认念出的语音是否和句子相符即可。

tags:

上一篇  下一篇

相关:

Azure DevOps专案功能正式上线,融合VSTS加速整合、建置及部署自动化

去年微软在Connect();大会上,开始布局云端DevOps服务,推出了Azure△DevOps专案服务,让企业用户可以使用Azure△App△Service,发布应用程序,一并将开发、部署及监控等环节都搞定,当时该服务处于预览版本状态,现

以文字游戏来训练增强学习AI,微软实验室开源TextWorld框架

在人工智能中,增强学习以及自然语言理解都是重要的技术,但是这两个项技术却很难合适的应用在一起。微软蒙特娄实验室释出了,用来制作文字游戏的可扩充Python框架TextWorld,开发人员除了可以使用TextWorld来训练或

美国 3D 打印枪械蓝图合法化 开源组织将上载更多枪械蓝图 | 香港 UNWIRE.HK 玩生活.乐科技

日前美国司法部终止同 3D 打印枪支的主要开源组织 Defense Distributed 的诉讼,达成和解。美国政府允许该组织利用 3D 打印技术,来制作枪支蓝图,而不会被警察拘捕。这宗案件的完结,为未来枪械设计与制作的门槛大幅

X的气球连网与无人机送货专案毕业了,独立为Alphabet子公司

Loon专案研发通过气球提供连网技术,图为专案早期测试用的气球原型。 图片来源: X Alphabet旗下的研发公司X本周三(7/11)举行了毕业典礼,送走了气球连网专案Project△Loon与无人机送货专案Project△Wing,而这两

Google释出开源工具助企业验证PostgreSQL的备份资料完整性

Google释出开源PostgreSQL页面验证(PostgreSQL△Page△Verification)工具,能帮助企业侦测PostgreSQL资料库变更程序中,所发生的资料丢失或是损坏的情形。采用Cloud△SQL的PostgreSQL用户,其资料库服务已经自动启

站长推荐: