AWS近日利用半监督式学习方法,来提升语音识别系统性能,特别是在吵杂的环境中,AWS表示,虽然现在深度神经网络能够准确地识别大量词汇的对话,训练工作还是需要长达数千个小时的标注数据,收集这些庞大数据不但耗时且成本昂贵,因此,过去AWS的科学家不断在研究能够在人工干预最小化的情况下,让Alexa学习正确识别语音的技术,大致上分为非监督式和半监督式学习。
AWS采用半监督式学习方法,首先,用800小时标注过的语音数据,训练了一套语音识别模型,该识别模型担任老师的角色,并用该模型“轻微地”标记另外尚未标记的7,200小时语音数据,接着,AWS手动在一些数据集中加入噪声,再将这些带有噪声的数据集和被第一个模型标记的数据,一起用来训练第二个识别模型,而这个模型则是担任学生的角色,借由这样的设计,AWS期望创在学生模型是用具有噪音的数据训练,而老师模型则是干净的语音数据,如此一来,就能改善语音识别系统处理噪音的稳定度。
图片来源:AWS
在一项测试实验中,AWS同时播放录制的语音和用音响播放多媒体声音,相比只有用无噪音和标注数据训练的语音识别模型,AWS半监督式的识别模型错误率减少了20%。