DeepMind技术加持，Google用AI改善Duo通话遗漏

随着4G、5G通信技术渐渐发展，网络通话越来越盛行。但网络不稳是常态，所以通话时我们不时可能蹦出一句，“你能再讲一遍吗？刚刚网络好像不稳没听到。”

为了提高通话品质，Google近期在视频聊天应用Duo激活新技术WaveNetEQ，出现音频遗失时，会判断遗失的音频资料可能是什么并替代，背后技术支持来自Google旗下声名在外的DeepMind团队。

（Source：Google）

完整的线上通信，资料经常分成多块，每块就是一个封包packet。然而封包从发送方传到接收方的过程，通常不会依次到达，会产生音频抖动、重叠等问题，或直接遗失，造成音频空白。

Google资料显示，Duo 99%通话都有封包遗失、过度抖动或网络延迟。20%通话遗失超过3%音频，10%通话丢包率超过8%，也就是说每次通话都有很多音频需要替代。

每个视音频App都会用某种方式处理丢包。Google表示，封包遗失隐藏（PLC）过程可能很难填补60毫秒或更长的空白。过去常用算法是NetEQ，是webRTC音频技术的两大核心技术之一（另一核心技术是音频前后处理，包括AEC、ANS、AGC等）。webRTC由Google收购GIPS再开源，是目前影响力极大的即时音视频通信解决方案，但用它处理丢包，大多情况下听起来像机器人或机械重复音。

Google以大量语音资料训练基于DeepMind WaveRNN技术的WaveNetEQ模型。训练资料集来自100多名、48种不同语言的志愿者，也就是说可自动填补48种语言遗失情况。

WaveNetEQ是用于语音合成的递归神经网络模型，由两部分组成，即自回归网络（autoregressive network）和条件网络（conditioning network）。自回归网络的作用是保持信号平稳流动，条件网络控制和影响自回归网络以保持音频一致性。

Google WaveNetEQ取代原来的NetEQ PLC组件，相对于NetEQ，音质方面无疑有提升，且WaveNetEQ模型跑得够快，可在手机执行，如此也能避开用户担心的资料隐私问题。Google称所有处理都是在设备进行，因Duo的通话默认就是端到端加密。一旦通话音频恢复，将无缝切换到现实对话。

不过，WaveNetEQ替代的内容和时长有限制。目前支持120毫秒内空白，之后会逐渐消失并归零；WaveNetEQ不是生成完整单词，而是简单音节。

目前WaveNetEQ已应用到Pixel 4手机的Duo App，Google表示，正将之推广到其他Android手机。