解决ML训练数据不平衡问题,AWS用新法提高声音识别系统正确度

AWS研究团队发布了一项用于解决训练数据不平衡的新技术,在研究实验中,AWS用新技术来处理识别特定声音的问题,像是玻璃打破的声音或是婴儿的哭声,实验结果显示,相比一般常用的神经网络声音识别方法,新方法将错误率降低了15%~30%,AWS也将在5月举行的IEEE 信号与通信科技国际会议中,发布用新技术修正训练样本不平衡的问题。

AWS指出,大多数现代的机器学习系统都是分类器,系统将输入数据分类到不同的种类中,像是特定动物的照片,理想上来说,当一个系统被训练来识别多个种类,每个种类的训练样本数量大致上要差不多,像是猫、狗和马,若训练样本数量没有大致相等,系统的识别结果可能会偏向较多训练样本的种类。

训练数据不平衡的问题有时候难以避免,但是必须在训练的过程修正该问题,解决该问题标准的方法是增加代表性不足样本的权重,也就是在训练过程中,于目标函数中增加特定类别权重,另外还有一项更高端的方法是训练一个神经网络来产生能够抓取不同类别之间差异的矢量空间,不过,对学习矢量空间而言,数据不平衡也是一个问题,在训练的过程中,若任何数据类别比其他的数据类别大,该类别的数据会分成多个群,来与最小的类别的大小相匹配。

为了解决这个问题,AWS开发了一套会持续计算每个数据群矢量空间重心的算法,该重心为将所有群中心点的平均距离最小化的点,通过每个新计算出来的矢量,AWS的算法能够计算重心到各个群的距离,将矢量网络训练后,AWS用训练后生成的输出数据当作新分类器的训练数据,来解决训练数据不平衡的问题。