Mozilla的开源语音识别引擎项目同声计划(Common Voice)发布最新的语音资料集,总共含有7,226个小时的语音资料,而且除了资料集的时间长度持续累计增加之外,多样性也不断地提升,最新的版本添加了14种资源稀有的语言,现在总共有54种语言的录音。
同声计划的目的是要提供Mozilla维护的语音转文本引擎DeepSpeech,有足够的训练资料使用,且该语音资料集不仅包含语音片段,还包含了贡献者自愿提供的元资料,可用来训练语音引擎,具有像是年龄、性别和口音等特征。
这个新版本拥有550万个语音剪辑,平均每个剪辑为4.7秒,在长达7,226个小时的语音中,已经有5,591小时已经由社群贡献者确认为有效语音资料,Mozilla特别提到,英文、德文、法文、意大利文和西班牙文,总共有超过5,000位的语音贡献者。
另外,Mozilla这次还发布了一个针对特殊用途的单词目标字符串资料集,这是针对用于特殊使用场景的字符串语音资料集,其中包含了用来进行语音数字识别、唤醒词等测试资料,其收集数字0到9的发音,还有Hey与Firefox等单词语音。
单词目标字符串资料集总共有120个小时,由11,000人在一个月内使用18种语言创建而成,同声计划的产品负责人Megan Branson提到,这个细分资料集将会用在Deep Speech的准确性基准测试中,以不同的语言完成相似的任务,在获得反馈细节后,知道继续改进资料集的方法。