涵盖101种语言，Google自然语言模型MT5开源化

机器学习自然语言模型一向备受重视，大型科技企业都纷纷推出各自模型，而在Google也不落人后，最近开源了MT5自然语言模型，据称表现相当优异。

Google的MT5是T5模型的多语言版，使用包含101种语言数据集训练，有约3亿至130亿个参数，并声称可学习超过100种语言而不会出现干扰问题。这个模型的开发目的，是要让计算机理解全球超过7,000种语言，能在类似语言之间共享信息，让资源不足的语言也能有效分析，甚至模型从未接触过的新语言也能处理。

MT5采用的训练数据集为MC4，来自Common Crawl网络收集的超过10,000个网页。Google表示，截至2020年10月，最大MT5模型在各项测试分数都得到第一，包括Xtreme、XNLI、XQuAD、MLQA和TyDi QA等。MT5推出后，将会成为继Facebook和微软之后，另一个相当强劲的自然语言模型。