AutoML成主流AI服务标配,定制模型门槛更容易了

2020年,AI依然是个关键字,但不同的是,实现各种AI应用背后的关键模型,其开发和训练门槛变得更低、支持的类型将更广,甚至不懂程序开发的领域专家,都能自己动手快速创建ML模型。关键就是,去年Google发布的AutoML机器学习自动化服务类型,现在成了各大主流公有云的标准配备,连云计算龙头AWS在2019年12月刚推出的AI集成开发工具Amazon SageMaker Studio中,都主打机器学习自动化功能AutoPilot,只要上传表格型数据,就能自动创建可用的机器学习预测模型。

AutoML从先前的少数独有,到现在变成了主流机器学习服务的标准配备,也大多朝向网页化接口、免程序开发特性、工作流程可视化管理的共同趋势发展,可说是进入新的AutoML 2.0阶段。

这意味着,更多分析人力不足的中小型企业能够受益。IBM在2019年初的报告指出,一家企业光是优化、管理机器学习模型,就需要1至6名数据科学家。而爆发式的AutoML 2.0产品,让这些缺乏人才的中小型企业,也能自己打造定制化的机器学习模型,提供更贴近产业特性的应用。

回顾过去,2018年,云计算巨头以自家丰厚的云计算资源,相继推出低门槛的模型自动化开发与训练服务。最典型的例子,就是年初最先登场的Google Cloud AutoML,一次瞄准图片识别(Vision)、翻译(Translation)和自然语言(Natural Language)等三大领域,支持CNN、RNN和LSTM三种算法,让企业能用自己的数据,来打造定制化AI模型。

进一步来说,Google Cloud AutoML的特别之处,在于能自动挑选算法、调整超参数,通过不断优化找出最合适的模型。另一主打特色,是不用撰写程序代码,或简称No Code(免程序代码),通过配置档或参数设置,上传训练用的数据,就可开始进行模型训练。以图片识别为例,用户只要上传数十或数百张照片,就能训练出专属的AI模型,大幅降低AI开发门槛。Cloud AutoML的图片识别、翻译和自然语言服务,随后也在隔年11、12月正式上线。

Google Cloud AutoML的特色,成为自动化机器学习服务的蓝本。2018年底,微软也在Azure Machine Learning中,正式推出自动化机器学习服务(Automated ML),支持回归、分类和预测等算法,其中一些功能也在2019年正式上线。这项服务,虽然仅支持结构化数据作为训练数据,但仍是企业无程序代码机器学习服务的另一选择。

更多大厂投入,AutoML遍地开花

自此,更多大厂争相加入AutoML战局,纷纷跨出第一步,发布简易、自动化程度更高的机器学习开发服务。

IBM就是其中之一。比如,2019年第二季时,IBM在自主机器学习服务Watson Studio中,正式推出可自动调校模型的无程序代码机器学习功能AutoAI,提供自动化数据预处理、特征工程,以及超参数调整等功能。不过,相较于Google Cloud AutoML,AutoAI只支持回归和分类算法,在数据类型上,也仅支持结构化数据的CSV格式,文件大小限制为100MB。

另一方面,数据分析龙头SAS也加入AutoML战局。2019年第四季,SAS宣布在自家云计算开发环境平台Viya中,正式添加自动化机器学习功能。同样主打简易操作,新功能可自动执行数据整理、特征工程,以及算法挑选等流程,并支持分类和回归算法,不过,数据类型仅限于CAS文件。

这股AutoML风潮,也吹进由Apache Spark技术团队创办的数据科学公司Databricks,2019年8月,正式在自家集成分析平台中,推出自动化机器学习工具组件(AutoML Toolkit),支持回归与分类算法,可自动处理特征工程、调校超参数、模型搜索,以及模型部署。有趣的是,它同时也提供细致的控制功能,让数据科学家可手动微调。

采取类似做法的,还有云计算龙头AWS,瞄准企业数据科学家和没受过机器学习训练的业务,于2019年底,在机器学习集成开发环境Amazon SageMaker Studio中,新添自动化机器学习功能AutoPilot,除了自动进行模型训练,还会产生Python程序代码,来告诉用户AutoPilot如何预处理数据;对数据科学家来说,可作为日后手动修改的参考。

AI模型开发成工厂作业,2020年迎来应用大爆发

自Google发布Cloud AutoML以来,打开了AutoML百家争鸣的时代,ML门槛一再降低,连没有数据科学团队的企业,都可快速训练模型、开发AI应用,使AI模型开发成为工厂作业,可快速大量训练和定制化生产。不论何种产业,都更容易发展各自的产业AI应用,2020年将带来另一波企业AI应用的大爆发。