Google开发新方法LEAF改进音频分类任务

Google重新设计用来处理音频分类任务的方法,发布了可学习的音频前端LEAF,用来取代过去预处理音频的方法梅尔滤波器组(Mel Filterbanks),以更好地处理像是分类鲸鱼叫声等音频分类任务。

过去几年,语音理解机器学习模型有了巨大的进展,通过从资料中学习参数的能力,该领域已经逐渐从过去复合手刻的系统,转变成为深层神经分类器,用于语音识别、音乐理解以及动物声音分类等任务。但Google提到,用于音频分类的深度神经网络跟计算机视觉模型不同,计算机视觉模型可以从原始像素中学习,但是音频分类深度神经网络很少使用原始音频波形训练。

音频分类深度神经网络依赖梅尔滤波器组预处理资料,这些滤波器使用经特别设计的梅尔缩放频谱,目的是要复制人类听觉回应的某些部分,虽然对梅尔滤波器组建模,过去的机器学习应用都很成功,使用固定梅尔缩放和对数压缩,在一般情况也都效果良好,但是Google认为,没有办法保证这些也可以被良好应用到其他的任务上。

在与人类感知相对应的应用领域,像是语音识别和音乐理解,目前标准梅尔滤波器组都提供了良好的归纳偏差,但是这些偏差可能对不需要模仿人耳的领域,像是识别鲸鱼叫声这类的任务造成负面影响,所以为了获得最佳的性能,需要为特定任务量身订做梅尔滤波器组,但这是一个繁琐的过程,不只需要专家知识,还需要许多迭代工作,因此在多数的音频分类任务,开发者还是偏好使用标准的梅尔滤波器组,即便可能无法产生最佳的结果。

为了解决这个问题,Google提出梅尔滤波器组的替代方法LEarnable Audio Frontend(LEAF),这是一个神经网络,可以初始化逼近梅尔滤波器组,并且与任何音频分类器一起训练,以适应特定任务。

Google将LEAF应用在各种音频分类任务上,包括语音识别、说话者识别、乐器识别和鸟声识别,LEAF的平均性能比起梅尔滤波器组,以及其他可学习前端,如Time-Domain Filterbanks、SincNet和Wavegram都还要好,在不同的任务上,LEAF的平均准确率达76.9%,而梅尔滤波器组的平均准确率则为73.9%。Google使用TensorFlow 2实例LEAF,现在已经在GitHub存储库开源。