Meta昨(6)日宣布完成开发能翻译200种语言的机器翻译单一AI模型NLLB 200,同时将把该模型及训练用的资料集一同开源出来。
Meta为实现元宇宙跨语言交互而开发的高品质机器翻译系统NLLB(No Language Left Behind),该公司宣称,最新完成的单一AI模型NLLB-200能翻译200种不同语言,且精确度相较前代技术,翻译品质平均分数提升44%。
这是继2020年底Meta开源的M2M-100后,最新一个机器翻译单一AI模型。当时还叫脸书的Meta首先将首个不需通过英语、可直接翻译两种语言,共能翻译100种语言的AI模型M2M-100开源出来。
Meta强调,NLLB-200对少数语言的支持。该公司指出,这个模型支持一些其他模型不支持或支持度极差的语言,像是肯尼亚东部的坎巴语(Kamba)和老挝(Lao,或老挝)语。Meta说,一些常用的(Google)机器翻译技术支持的非洲语言不到25种。相较之下,NLLB-200支持55种非洲语言,所有支持的200种语言涵盖地球数十亿人口。
除了支持语言数量多,Meta也声称能达到高品质的翻译水准。和前代相较,NLLB-200在FLORES-101基准测试1万种可能方向的BLEU(bilingual evaluation understudy)得分平均高44%。在部分非洲及印度语言中,NLLB-200的精确度更是拉高70%
Meta表示,其NLLB机器翻译系统将可支持脸书News Feed、Instagram及其他平台每日250亿次翻译。高品质而精准的翻译除了可加速用户的使用方便性,也有助于识别这些平台上的有害内容及不实资讯,防止介入选举,减少性剥削和人口贩运等不法行为。
现在维基百科编辑使用的内容翻译工具已经集成NLLB建模技术,来翻译20多种资料量很少的稀有语言,包括10种之前完全没有机器学习工具支持的语言。
为了训练NLLB-200,Meta也创建了资料集FLORES-200,在开发过程中,让研究人员评估4万种不同语言翻译方向下NLLB-200的性能。今天Meta宣布把NLLB-200及训练该模型的开源出来供外界开发及测试用。
同时Meta也宣布提供20万美元奖金,征求利用NLLB-200开发出的主题应用,包括持久性、食物安全、性别暴力、教育或其他支持联合国永续开发目标的主题领域,鼓励非营利组织利用NLLB-200翻译2种以上非洲语言,或是语言学、机器翻译和语言技术相关研究人士试用。
除了NLLB-200之外,Meta还发布其他资源。为了能在更多语言搜集精准的平行文本,Meta改进了自然语言处理(NLP)零样本转移(zero-shot transfer)工具LASER,现为LASER 3。LASER 3是以掩码语言建模(Masked Language Modeling)为目标以自我监督方式训练成的Transformer模型,而非LSTM,性能更提升,且加入了语言分组专用的encoder,大幅扩展LASER 3的语言涵盖面及产出更大量的句对。Meta也宣布开源LASER 3给其他研究人员,同时将不同语言数十亿对的句子文本开放出来,这些句子已经经过AI技术的梳理。