Google更新云计算语音转文本服务 正确率大幅提升

Cloud Speech-to-Text服务大改版,提供命令与搜索、电话、视频与默认4种模式,其中强化后的电话模式听写电话的错误率降低了54%,而与YouTube加上字幕技术雷同的视频模式转录错误率也降低了64%。

继上个月发布云计算文本转语音(Cloud Text-to-Speech)服务之后,Google在周一(4/9)更新了云计算语音转文本(Cloud Speech-to-Text)服务,提供全新的视频及电话转录模型,也添加了自动化标点符号功能。相较于原本的电话模型,新的强化版电话转录模型(enhanced phone_call model)让语音识别的错误率减少了54%。

Google于2016年发布的Cloud Speech-to-Text原名为Cloud Speech API,可识别包括中文在内的超过120种语言,本周则是该服务创建以来最大规模的改版,它提供了4种定制化模式,包括命令与搜索(command_and_search)、电话(phone_call)、视频(video)与默认(default),其中,电话模型适用于基于8khz采样率记录的电话内容,而默认模型则多用在音质较好、时间较长、采样率高于16khz以上的音频,用户可依照不同的使用场景选择适用的模型,以顺利将语音转换成文本。 (来源:Google)

Google Cloud AI产品经理Dan Aharon表示,有许多云计算供应商利用客户的请求来改善相关服务,但基于数据及隐私保护的立场,Google并不打算采用这样的作法,取而代之的是推出业界首创的“选择加入计划”( opt-in program),让客户主动提供数据供Google纪录与分析,而首个成品就是强化版电话转录模式,该计划成功地让Cloud Speech-to-Text的电话转录服务减少了54%的错误。

至于新的视频模式则可用来将视频中的语音转换成文本,或是转录同时有多人开讲的语音,该模式所使用的机器学习技术与YouTube自动化字幕背后的技术雷同,相较于原本的默认模式,视频模式的转录错误率也降低了64%。

不管是强化版的语音模式或视频模式现在都只支持英文,预计很快就会扩张至其它语言。

除了全新的语音及视频模式之外,新版的Cloud Speech-to-Text还准备在将语音转成文本之后,自动加入标点符号,以让文本更容易阅读,目前该模式仍属于测试阶段,可提供逗点、句号或问号等标点符号的建议。

除了视频模式每15秒的收费为0.012美元之外,其它模式的费用皆为每15秒0.006美元,为了推广全新的视频模式,截至今年5月31日可享用每15秒0.006美元的优惠价。