Microsoft开发AI语音工具只需3秒样本就能模仿目标说话

除了近期大热的ChatGPT，Microsoft还有其他具潜质的人工智能项目，其中包括文本生成语音模型VALL-E，它的最大卖点是只要输入目标网址和3秒的声音样本，模型就能制作出相似度极高的语音内容。现在VALL-E还处于初期训练阶段，但开发团队提供的英语语音训练资料已达6万小时。

Microsoft的开发团队表示利用现有神经音频编解码模型的离散码，去训练VALL-E神经编解码器语言模型，将文本转语音视作条件式语言创建模型任务。VALL-E会根据文本输入和3秒的语音提示，然后产生跟文本和目标声音相应的离散音频编解码。

在语音自然度和相似度方面，Microsoft指VALL-E的表现比现有的SOTA模型好，而且能保持情绪和声音环境，不过还有需要改善的地方，例如部分单词发音不清晰，而且未能模仿带有口音的声音等。开发团队认为VALL-E未来可以在各种语音合成方案直接使用，包括零样本文本转语音、语音编辑，或搭配GPT-3等人工智能模型去产生更多内容。