随着4G、5G通信技术渐渐发展,网络通话越来越盛行。但网络不稳是常态,所以通话时我们不时可能蹦出一句,“你能再讲一遍吗?刚刚网络好像不稳没听到。”
为了提高通话品质,Google近期在视频聊天应用Duo激活新技术WaveNetEQ,出现音频遗失时,会判断遗失的音频资料可能是什么并替代,背后技术支持来自Google旗下声名在外的DeepMind团队。
(Source:Google)
完整的线上通信,资料经常分成多块,每块就是一个封包packet。然而封包从发送方传到接收方的过程,通常不会依次到达,会产生音频抖动、重叠等问题,或直接遗失,造成音频空白。
Google资料显示,Duo 99%通话都有封包遗失、过度抖动或网络延迟。20%通话遗失超过3%音频,10%通话丢包率超过8%,也就是说每次通话都有很多音频需要替代。
每个视音频App都会用某种方式处理丢包。Google表示,封包遗失隐藏(PLC)过程可能很难填补60毫秒或更长的空白。过去常用算法是NetEQ,是webRTC音频技术的两大核心技术之一(另一核心技术是音频前后处理,包括AEC、ANS、AGC等)。webRTC由Google收购GIPS再开源,是目前影响力极大的即时音视频通信解决方案,但用它处理丢包,大多情况下听起来像机器人或机械重复音。
Google以大量语音资料训练基于DeepMind WaveRNN技术的WaveNetEQ模型。训练资料集来自100多名、48种不同语言的志愿者,也就是说可自动填补48种语言遗失情况。
WaveNetEQ是用于语音合成的递归神经网络模型,由两部分组成,即自回归网络(autoregressive network)和条件网络(conditioning network)。自回归网络的作用是保持信号平稳流动,条件网络控制和影响自回归网络以保持音频一致性。
Google WaveNetEQ取代原来的NetEQ PLC组件,相对于NetEQ,音质方面无疑有提升,且WaveNetEQ模型跑得够快,可在手机执行,如此也能避开用户担心的资料隐私问题。Google称所有处理都是在设备进行,因Duo的通话默认就是端到端加密。一旦通话音频恢复,将无缝切换到现实对话。
不过,WaveNetEQ替代的内容和时长有限制。目前支持120毫秒内空白,之后会逐渐消失并归零;WaveNetEQ不是生成完整单词,而是简单音节。
目前WaveNetEQ已应用到Pixel 4手机的Duo App,Google表示,正将之推广到其他Android手机。