Meta示范新AI语音翻译系统,直转闽南语和英语对话

Meta首席执行官扎克伯格昨天在Facebook上贴出一段英语与闽南语AI口译翻译对话的视频,并表示目前正在开发AI口语翻译系统,让主要用于口说而非书写的语言(例如闽南语)可以被翻译。

与扎克伯格对话的这名员工,是来自台湾的Meta AI研究员陈鹏仁,从小在台湾长大讲的是一般的中文,但是他爸爸讲的是台语,他表示能明显感受到语言障碍影响沟通的能力,因此希望能改善这个问题。

为开发这个只有语音的全新翻译系统,Meta AI研究人员必须克服许多来自传统机器翻译系统的挑战,包括资料搜集、模型设计,以及准确度评估。在将UST扩展至更多语言之前,Meta还有很多工作要做。

但能够轻松地与使用任何语言的人们沟通的能力,是Meta长久以来追寻的梦想,因此Meta很高兴能向这个目标更迈进了一步。Meta不只会开放闽南语翻译模型的源码,也会公开评估资料集和研究报告,让他人能够重现并以Meta的工作成果为基础创建模型。

“我希望我爸跟所有人沟通时,都用台语,这是他最熟悉的语言。”Meta AI研究员陈鹏仁分享,“他听得懂中文,但若是讨论比较复杂的主题时,他说话的速度会比较慢。”

Meta今日发出新闻稿表示,截至目前为止AI翻译主要着重于各种书写语言,但在全球超过7,000种的现存语言中,将近半数主要是以口语表达,没有标准或广泛使用的书写文本系统,导致AI无法使用标准技术为这类以口语为主的语言打造机器翻译工具。

为了克服这个挑战,Meta以“闽南语”这项以口语为主的语言打造了人工智能技术翻译系统,让使用闽南语口说的人可以直接和使用英语口说的人对话。

该开放源码的翻译系统是Meta Universal Speech Translator(UST,或译:通用语音翻译工具)项目的一部分,该项目致力于开发新的AI方法,希望最终能为所有现存语言进行即时语音翻译,包括主要以口语表达的语言。

在着手打造闽南语翻译系统时,面临的一个重大障碍就是是否能够搜集到足够的资料。

闽南语是所谓的资源匮乏语言,这意味着与西班牙文或英文等语言相比,该语言尚未有足够的训练资料,此外,将英语翻译成闽南语的翻译人员相对来说很少,因此更难以搜集资料并加上注解来训练模型。

Meta利用中文作为中间语言,以创建伪标签和人工翻译,意思是Meta先将英语(或闽南语)语音翻译成中文文本,接着再翻译成闽南语(或英语),然后添加至训练资料中。此方法利用了资源充足的相似语言的资料,借此大幅改善了模型成效。

另一个产生训练资料的做法是语音探勘,Meta使用预先训练好的语音编码器,便能通过编码方式将闽南语语音嵌入内容加入到其他语言的相同语义空间中,而无需取得闽南语的书写文本。闽南语语音可以和拥有相似语义嵌入内容的英语语音和文本配对,接着从文本来合成英文语音,产生平行的闽南语和英语语音。

许多语音翻译系统依赖转译内容,或依赖语音转文本系统,但由于主要以口语表达的语言并没有标准书写文本形式,因此Meta就无法将翻译的文本制作成翻译内容输出,因此在这个模型中,Meta聚焦于语音转语音翻译。

Meta使用语音转单元翻译(speech-to-unit translation,S2UT)系统,直接在先前由Meta开创的路径中,将输入的语音翻译成一系列声学单元,然后从这些单元中生成波形。此外,针对二次解码机制采用UnitY,让第一阶段的解码器产生相关语言(中文)的文本,然后让第二阶段的解码器制作单元。

语音翻译系统通常会使用称为ASR-BLEU的衡量指标来评估,首先需使用自动语音识别系统(ASR)将翻译后的语音转译成文本,然后将转译后的文本与人工翻译的文本比较,以计算BLEU分数(标准机器翻译衡量指标)。

但评估主要以口语表达的语言(例如闽南语)时,评估语音翻译的挑战之一就是没有标准的书写文本系统,为启动自动评估程序,我们开发了称为Tâi-lô 的系统(Tâi-lô,台罗),将闽南语语音转译成标准化的拼音符号。这项技术让Meta能以音节为单位计算BLEU分数,并能够很容易地比较不同方法下的翻译品质。

除了开发方法以评估闽南语与英语语音翻译的准确度,Meta也根据名为Taiwanese Across Taiwan的闽南语语音语料库,创建第一个闽南语与英语双向的语音翻译基准资料集。Meta将开放此基准资料集的源码,以鼓励其他研究人员合作进行闽南语语音翻译,并一同在该领域中取得进一步进展。

在目前的阶段中,Meta的做法能够让使用闽南语的人士与使用英语的人士对话。虽然该模型仍在开发中,而且每次只能翻译一个完整句子,但已朝着未来实现为各种语言提供同步翻译的目标迈开一步。

Meta首创用于闽南语的各项技术,可以扩展至许多其他有书写系统和无书写系统的语言。为此,Meta将发布SpeechMatrix(暂译语音矩阵),这是由Meta的创新数据挖掘技术支持的大型语音翻译语料库,称为LASER,能让研究人员创建自己的语音翻译(S2ST)系统,并以Meta的工作成果为基础,展开研究及开发工作。

此外,Meta在非监督方式语音识别技术(wav2vec-U)与非监督方式机器翻译(mBART)上的最新进展,将有助于未来能翻译更多口说语言的工作。随着在非监督学习上的进展,Meta证明了在没有人工注解下创建高品质的语音转语音翻译模型的可行性。这将大幅降低往后扩展至低资源语言的条件,因为其中大部分的语言都没有获得标记的资料。