AWS日前才更新了自然语言理解服务Comprehend,推出定制Entity识别模型的功能,让不懂机器学习的开发人员,也能训练自家的Entity识别模型,来自动萃取特定的字词。该公司的自动语音识别服务Transcribe近日也有新功能,推出即时语音转文本Streaming Transcription ,Transcribe能够让开发者,将语音转文本的功能添加到自家的应用中,而最新推出的Streaming Transcription则更进一步,让用户上传一段语音到服务中,就能回传即时识别的文本稿。
自动语音识别服务Transcribe于去年11月AWS re: Invent大会上第一次亮相,并于今年4月与即时翻译服务Translate一起公开发布,该服务能将语音转换成文本,同时能够让开发人员将该功能加入自家的应用中,目前支持16 kHz和8 kHz语音串流,和多种语音格式,像是WAV、MP3、MP4和Flac,也能够用来分析存放在S3的语音文件内容,或是分析客户的通话数据、自动创建字幕、根据内容执行目标式广告,也能搜索语音或视频内容,支持美式英语、英式英语、西班牙语、澳大利亚英语和加拿大法语。
AWS认为,即时语音转文本的服务,对于不同的行业都很有帮助,包含客服中心、媒体、娱乐行业、金融和保险业,甚至是法庭的记录,都能够提供辅助,举例来说,客服中心可以即时侦测与抄写文本的关键字,根据关键字触发下一个工作流程,媒体业则可以在新闻播报时,即时自动上字幕,电玩商也能通过这项功能,提供听力受损的玩家辅助服务,而在法庭上,该功能则可以速记法庭上的对话内容,同样地,一般的企业也可以用来记录会议信息。
Streaming Transcription利用了HTTP/2执行双向流技术,来处理用户应用端和AWS服务端之间的语音串流和文本记录,双向流可以让应用端同时发送和接收数据,因此,能够更快速地得到结果。
为了展示如何使用AWS ADK将Streaming Transcription,加入自家的应用中,AWS创立了一个示例并公开在GitHub上,用户通过麦克风或是上传语音频,传输到AWS的语音转文本服务中,就能即时获得文本记录。