除了近期大热的ChatGPT,Microsoft还有其他具潜质的人工智能项目,其中包括文本生成语音模型VALL-E,它的最大卖点是只要输入目标网址和3秒的声音样本,模型就能制作出相似度极高的语音内容。现在VALL-E还处于初期训练阶段,但开发团队提供的英语语音训练资料已达6万小时。
Microsoft的开发团队表示利用现有神经音频编解码模型的离散码,去训练VALL-E神经编解码器语言模型,将文本转语音视作条件式语言创建模型任务。VALL-E会根据文本输入和3秒的语音提示,然后产生跟文本和目标声音相应的离散音频编解码。
在语音自然度和相似度方面,Microsoft指VALL-E的表现比现有的SOTA模型好,而且能保持情绪和声音环境,不过还有需要改善的地方,例如部分单词发音不清晰,而且未能模仿带有口音的声音等。开发团队认为VALL-E未来可以在各种语音合成方案直接使用,包括零样本文本转语音、语音编辑,或搭配GPT-3等人工智能模型去产生更多内容。
资料及图片来源:arstechnica