效果是MP3十倍，Meta开发全新AI语音压缩技术

为了让低带宽网络也能发送高品质语音文件，Meta近日公布一项AI语音压缩技术，其压缩效果是MP3的十倍，使低带宽网络发送声音文件时不会发生断断续续、失声等情况。

Meta表示，压缩技术是当今互联网重要一环，因为它可使人们更轻易的发送高画质照片、语音频息等。然而，发送这些多媒体消息需要充足的带宽和存储空间，尤其是在未来的元宇宙时代，将为网络带宽带来更大的负担；业界因而需要效果更好、能带宽限制的压缩技术。

为此，Meta开发一项AI语音压缩技术。Meta旗下的基础AI研究（Fundamental AI Research, FAIR）部门创建一个名为“EnCodec”的AI训练模型，其涵盖三个部分，分别为编码器（encoder）、量化器（quantizer）及解码器。

Source：Meta

首先是编码器，其功用是可以将原始资料转成更高维度以及较低影帧速率（frame rate）的格式。其次是量化器，不仅能压缩格式资料，还可以经由AI训练将资料压缩至计划团队想要的大小，且还保留最重要的资讯以重建原始信号；其角色类似于MP3档，能存储或在网络上发送。

最后则是解码器，能将压缩消息重建为类似原始音频的波形。研究人员解释，要在低码率（bit rates）下完美重建压缩信号是很困难的，所以团队利用鉴别器（Discriminator）提升生成样本（generated sample）的品质；鉴别器主要功用是负责比对原始样本和生成样本的差异。

Source：Meta

总之，研究小组表示，经过测试后，EnCodec在各种带宽及音频品质上，都能即时编码及解码，且EnCodec（6kbps）压缩率是MP3（64kbps）的近10倍。虽然以往也有人尝试以神经网络压缩音频，但Meta是首个将此技术用于48kHz（CD音质）的立体声音。

（首图来源：Meta）