Google发布了自由通用声音分离资料集(Free Universal Sound Separation,FUSS),以促进社群在于声音分离的研究。FUSS的目的是要来支持声音分离模型的研究,让研究人员利用模型,从包含多个声音来源的录音中,分离出各种声音。
Google提到,过去要从录音中分离这种不同的声源,其分离工作着重在从混合录音中,分离出少量声音类型,像是从录音中分离出语音与非语音,或是分出录音中两位说话者的语音,而在分离之前,还需要预先知道录音中存在声音的数量。
而Google所创建的FUSS资料集,是要来解决更加普遍通用的问题,希望可以将录音中,随意数量的声音彼此分开,Google表示,这个领域训练模型,有一个主要的障碍,是即便拥有了高品质的录音,也无法简单地以基准真相标注这些声音;而这也就出现了以高品质模拟来克服该限制的方法,但要达到良好的效果,用户需要使用逼真的房间模拟器,编排各种元素以取得真实、多音源以及多重等级的基准真相声音。
FUSS则具备了这些特性,其运用了freesound.org上CC授权的音频剪辑,共取得约23小时的录音,其中包含了12,377种可用于混音的声音,Google利用自家开发的模拟器,处理这些音频剪辑,共创建了2万个用于训练的混音,1千个验证用混音和1千个评估用混音。
Google采用Tensorflow开发自家的房间模拟器,研究人员可利用此模拟器,产生具声源以及麦克风位置信息的录音,其所产生出来的音频媲美昂贵的房间模拟器。Google也发布了遮罩分离基准模型,即便录音中存在2到4个声音来源,该模型也能维持良好的性能。Google这次发布的内容,包含各种声音的FUSS资料集、音频样本的声音组成编码,还有基准模型,未来可能也会发布模拟器程序代码。