微软在正式推出.NET 7之后,现在更新其跨平台针对.NET应用程序的机器学习框架ML.NET ,现在发布最新版本2.0,这个版本更新重点包括文本分类和语句相似度API,并且改进自动化机器学习功能。
ML.NET 2.0可以更好地支持文本分类场景,其提供的文本分类API可供用户训练模型,以分类文本资料。开发者通过模型构建器(Model Builder),就能使用微软的预训练模型,并以文本分类API及资料来微调模型。
微软提到,该自定义文本分类模型,是由微软研究院以最新深度学习技术训练而成。该文本分类功能支持CPU和GPU在本地端进行训练,而在GPU的规格上,除了需要能够与CUDA兼容外,也建议至少拥有6 GB专用内存。
ML.NET 2.0还加入了语句相似度API,该API与文本分类API底层使用相同TorchSharp NAS-BERT模型,差异在于语句相似度API,提供两个语句的相似度数值,而非预测类别。
由于要激活文本分类和语句相似度等自然语言处理功能,ML.NET需要一种能够处理文本资料的方法,而这通常需要使用到Tokenizer技术,微软使用英文Roberta模型来实例Tokenizer,而微软也在Microsoft.ML.Tokenizers NuGet组件中,发布ML.NET内的Tokenizer API,开发者便可以使用该组件来导入自定义词汇表,并使用BPE Tokenizer来处理文本资料。
另外,微软也改进自动化机器学习(AutoML)功能,AutoML能够自动化机器学习应用资料的过程,支持开发者在模型构建器和ML.NET CLI的开发体验。在ML.NET 2.0中,微软将AutoML实例加入dotnet/machinelearning存储库中,并且添加更多功能,使开发者能够更简单地开发机器学习应用,并且找出最佳参数。