涵盖101种语言,Google自然语言模型MT5开源化

机器学习自然语言模型一向备受重视,大型科技企业都纷纷推出各自模型,而在Google也不落人后,最近开源了MT5自然语言模型,据称表现相当优异。

Google的MT5是T5模型的多语言版,使用包含101种语言数据集训练,有约3亿至130亿个参数,并声称可学习超过100种语言而不会出现干扰问题。这个模型的开发目的,是要让计算机理解全球超过7,000种语言,能在类似语言之间共享信息,让资源不足的语言也能有效分析,甚至模型从未接触过的新语言也能处理。

MT5采用的训练数据集为MC4,来自Common Crawl网络收集的超过10,000个网页。Google表示,截至2020年10月,最大MT5模型在各项测试分数都得到第一,包括Xtreme、XNLI、XQuAD、MLQA和TyDi QA等。MT5推出后,将会成为继Facebook和微软之后,另一个相当强劲的自然语言模型。