Google AI语音服务大更新，不仅降价还添加7种语言和31种声音

Google更新文本转语音和语音转文本服务，除了优化语音识别模型、新支持7种语言和31种声音之外，也调整了语音服务的价格，在特定的应用场景中，用户最多可以省下约50%的支出，而Google也提供每月前60分钟免费的语言转文本服务。

Google指出，语音识别和生成技术在人机交互的应用中非常关键，要让人机交互更加自然、简单且普遍，并不容易，即便使用准确度高达90%的语音识别模型，还是很难真正达到有效的对话，由于许多企业的语音识别模型都是要在电话中运行，受到噪音的干扰，产生的文本信息让模型难以处理，Google于去年4月针对这种应用场景推出电话和视频的语音转文本服务，经过不断优化，现在电话的文本错误已降低了62%，而视频的语音转文本模型错误率也降低了64%，除此之外，视频的语音转文本模型在识别多个说话者的场景中，像是会议或是广播，也有很好的表现。

电话的语音转文本模型过去只开放给参与Google收集语音数据计划的成员使用，现在，任何企业都可以使用这个优化过的模型，若用户选择允许Google收集数据，则可以折抵一些费用，除了上述两个语音转文本的模型之外，Google这次也正式推出多声轨的语音识别服务，协助语音转文本API区别多个不同的语音，像是对话中的不同人，Google指出，该服务对会议分析，或是有多人参与的对话都相当有帮助。

在价格方面，为了吸引更多用户，Google将影词组音转文本模型收费调降了25%，而在标准和视频模型服务中，选择加入数据收集计划的用户，收费价格会减少33%，因此，若使用视频模型且选择加入收集数据计划的用户，将能够减少约50%的支出。

此外，支持的语言也是企业使用语音转文本识别模型的一大考量，现在Google添加了7个语言和方言，包含丹麦语、葡萄牙语、俄语、波兰语、斯洛伐克语、乌克兰语和挪威语，加上上述添加的语言，目前总共支持21种语言，这些添加的语言都还是测试版。在语音生成模型方面，Google的语音生成系统WaveNet也添加了31种声音，目前总共有包含21种语言的57种声音。