微软发布跨平台机器学习框架ML.NET 2.0，改善文本处理与AutoML功能

微软在正式推出.NET 7之后，现在更新其跨平台针对.NET应用程序的机器学习框架ML.NET ，现在发布最新版本2.0，这个版本更新重点包括文本分类和语句相似度API，并且改进自动化机器学习功能。

ML.NET 2.0可以更好地支持文本分类场景，其提供的文本分类API可供用户训练模型，以分类文本资料。开发者通过模型构建器（Model Builder），就能使用微软的预训练模型，并以文本分类API及资料来微调模型。

微软提到，该自定义文本分类模型，是由微软研究院以最新深度学习技术训练而成。该文本分类功能支持CPU和GPU在本地端进行训练，而在GPU的规格上，除了需要能够与CUDA兼容外，也建议至少拥有6 GB专用内存。

ML.NET 2.0还加入了语句相似度API，该API与文本分类API底层使用相同TorchSharp NAS-BERT模型，差异在于语句相似度API，提供两个语句的相似度数值，而非预测类别。

由于要激活文本分类和语句相似度等自然语言处理功能，ML.NET需要一种能够处理文本资料的方法，而这通常需要使用到Tokenizer技术，微软使用英文Roberta模型来实例Tokenizer，而微软也在Microsoft.ML.Tokenizers NuGet组件中，发布ML.NET内的Tokenizer API，开发者便可以使用该组件来导入自定义词汇表，并使用BPE Tokenizer来处理文本资料。

另外，微软也改进自动化机器学习（AutoML）功能，AutoML能够自动化机器学习应用资料的过程，支持开发者在模型构建器和ML.NET CLI的开发体验。在ML.NET 2.0中，微软将AutoML实例加入dotnet/machinelearning存储库中，并且添加更多功能，使开发者能够更简单地开发机器学习应用，并且找出最佳参数。