AWS用递归神经网络(RNN)来创建文本范式系统,实验结果显示,相较于先前最佳的神经系统,采用RNN创建的文本范式系统错误率降低了75%,另外处理指令延迟率减少63%,若将其他信息加入考量,像是词性、大写等,错误率可以更进一步下降81%。
在对话式AI模型中,文本范式(Text normalization)是重要的过程,举例来说,若用户对Alexa说:帮我预订下午五点的吃饭,语音识别器会将语音转录为下午五点,为了使系统能够处理该指令,要把下午五点转换为5:00PM,在生成语音的步骤又要转换回来,AWS称5:00PM转换为下午五点的过程为文本范式,反之则是逆向文本范式。
在上述的例子中,Alexa系统中的时间表示法有两种,必须要在处理指令的过程转换格式,不只是时间,其他类型的表达法也需要类似的范式处理,像是日期、电子邮箱地址、号码和缩写,为了实现英文的文本范式,Alexa现在依赖数千个手写的规则,随着Alexa与用户交互的范围越广,制定规则成为很容易出错的一环,且Alexa支持的语言越来越多,不太可能重写这些规则,因此,AWS最近采用RNN来创建文本范式系统。
输入字词数据的模糊性使得文本范式变得相当重要,例如,根据上下文语义,Dr.这个缩写可能代表博士,也可能是路名,2/3可能是三分之二,也有可能代表2月3日,文本范式系统在处理这种字词之前,必须考虑上下文,过去处理该问题最佳的方法就是用神经模型,搭配固定长度字词的文本分析器,扫描整句文本,让模型决定如何处理中心词,不过这样的方法相当耗时,AWS则是用注意机制来测量上下文,针对每个输入的文本,注意力机制可以决定哪些字会影响语义。
不过,以句子为基础,搭配注意力机制的文本范式系统实验结果并不理想,AWS的解决方案是将输入数据的句子,在送至神经网络处理之前,先拆分成子字符(subword),相同地,也训练模型产生子字符,再通过一个独立的算法,将网络输出的字符拼成完整的字词,该方法的优点是能够减少神经网络要学会的输入数据数量,也有助于模型处理从未见过的输入词。