AWS自动语音识别服务Transcribe推出即时语音转文本功能

AWS日前才更新了自然语言理解服务Comprehend，推出定制Entity识别模型的功能，让不懂机器学习的开发人员，也能训练自家的Entity识别模型，来自动萃取特定的字词。该公司的自动语音识别服务Transcribe近日也有新功能，推出即时语音转文本Streaming Transcription ，Transcribe能够让开发者，将语音转文本的功能添加到自家的应用中，而最新推出的Streaming Transcription则更进一步，让用户上传一段语音到服务中，就能回传即时识别的文本稿。

自动语音识别服务Transcribe于去年11月AWS re: Invent大会上第一次亮相，并于今年4月与即时翻译服务Translate一起公开发布，该服务能将语音转换成文本，同时能够让开发人员将该功能加入自家的应用中，目前支持16 kHz和8 kHz语音串流，和多种语音格式，像是WAV、MP3、MP4和Flac，也能够用来分析存放在S3的语音文件内容，或是分析客户的通话数据、自动创建字幕、根据内容执行目标式广告，也能搜索语音或视频内容，支持美式英语、英式英语、西班牙语、澳大利亚英语和加拿大法语。

AWS认为，即时语音转文本的服务，对于不同的行业都很有帮助，包含客服中心、媒体、娱乐行业、金融和保险业，甚至是法庭的记录，都能够提供辅助，举例来说，客服中心可以即时侦测与抄写文本的关键字，根据关键字触发下一个工作流程，媒体业则可以在新闻播报时，即时自动上字幕，电玩商也能通过这项功能，提供听力受损的玩家辅助服务，而在法庭上，该功能则可以速记法庭上的对话内容，同样地，一般的企业也可以用来记录会议信息。

Streaming Transcription利用了HTTP/2执行双向流技术，来处理用户应用端和AWS服务端之间的语音串流和文本记录，双向流可以让应用端同时发送和接收数据，因此，能够更快速地得到结果。

为了展示如何使用AWS ADK将Streaming Transcription，加入自家的应用中，AWS创立了一个示例并公开在GitHub上，用户通过麦克风或是上传语音频，传输到AWS的语音转文本服务中，就能即时获得文本记录。