AWS针对吵杂环境场景，用半监督式学习提升语音识别模型准确度

AWS近日利用半监督式学习方法，来提升语音识别系统性能，特别是在吵杂的环境中，AWS表示，虽然现在深度神经网络能够准确地识别大量词汇的对话，训练工作还是需要长达数千个小时的标注数据，收集这些庞大数据不但耗时且成本昂贵，因此，过去AWS的科学家不断在研究能够在人工干预最小化的情况下，让Alexa学习正确识别语音的技术，大致上分为非监督式和半监督式学习。

AWS采用半监督式学习方法，首先，用800小时标注过的语音数据，训练了一套语音识别模型，该识别模型担任老师的角色，并用该模型“轻微地”标记另外尚未标记的7,200小时语音数据，接着，AWS手动在一些数据集中加入噪声，再将这些带有噪声的数据集和被第一个模型标记的数据，一起用来训练第二个识别模型，而这个模型则是担任学生的角色，借由这样的设计，AWS期望创在学生模型是用具有噪音的数据训练，而老师模型则是干净的语音数据，如此一来，就能改善语音识别系统处理噪音的稳定度。

图片来源：AWS

在一项测试实验中，AWS同时播放录制的语音和用音响播放多媒体声音，相比只有用无噪音和标注数据训练的语音识别模型，AWS半监督式的识别模型错误率减少了20%。