Google 11日宣布推出Beta版Cloud AI Platform Pipelines,专门设计部署坚固、可重复的人工智能流程(AI Pipeline),并能在云计算落实监控、审核、版本关注和再现性。Google认为它是能为机器学习(Machine Learning,ML)工作流程提供“易于安装”安全执行环境的方法,减少企业产品投产耗费的时间。
“若你只是用笔记本制作机器学习模型原型,似乎很简单明了。但当你必须开始关注其他确保机器学习工作流程的可持续性与可扩展性等方面,事情会变得更复杂。”Google产品经理Anusha Ramesh和员工开发大使Amy Unruh的博客文写道:“机器学习工作流程会包括许多相互依赖的步骤,从资料准备和分析,到训练、评估,再到部署等。这很难以特别方式组整合关注程序,且也会出现更多审核与再现性之类的问题。”
AI Platform Pipelines大致包括两大部分:1. 部署及运行与Google云计算平台(GCP)服务相集成结构化AI工作流程的基础设施,以及2. 用于构建、调试和共享流程与组件的流程工具。服务会运行在Google Kubernetes(K8S)集群,集群是安装过程的一部分且自动创建,并可通过云计算AI平台仪表板访问。借由AI Platform Pipelines,开发人员可通过Kubeflow Pipeline软件开发组件(SDK)或通过TFX SDK定制化TensorFlow Extended(TFX)流程范本指定某个流程。此SDK组件可编译流程并提交给Pipeline REST API服务器,服务器会存储并调度流程以执行。
支持各种Google云计算服务,并提供自动化Metadata、工件和链结关注功能
人工智能流程使用开放源码Argo工作流程引擎执行流程,并有额外微服务(Microservices)记录诠释资料(Metadata)、处理组件IO,并规划流程执行的调度。各流程步骤会当作集群的个别独立pod(最小部署单位)执行,每个组件都可利用Google云计算服务,如Dataflow流媒体分析服务、AI Platform Training and Prediction服务、BigQuery云计算数据仓库服务等。同时,这些流程包含能在集群执行绘图卡与张量处理器(Tensor Processing Unit,TPU)运算等步骤,并可直接运用像是自动扩展及节点自动随需配置等功能。
AI Platform Pipelines能执行的功能还包括采用ML Metadata的自动化诠释资料关注机制,ML Metadata是个函数库,能记录并检索与机器学习开发人员及资料科学家工作流程相关的诠释资料。自动化诠释资料关注机制,还能记录用于流程步骤及流程参数的工件(artifact)、跨输入/输出工件的链结,以及会产生并使用的流程步骤。
此外,AI Platform Pipelines支持流程版本控制(Pipeline Versioning),允许开发人员上传同流程的多版本(并在UI用户接口分组),并支持自动化工件和链结关注。原生工件关注功能支持诸如模型、资料统计、模型评估指标等关注。链结关注则能显示用户模型、资料等历史纪录与版本。
Google表示,AI Platform Pipelines不久后将支持多用户隔离(Multi-User Isolation)功能,允许每个访问流程集群的人控制谁可以访问流程和其他资源。其他即将推出的功能还包括工作负载识别码(Workload Identity),支持更透明的Google云计算服务访问;诠释资料、服务器资料、工作历史纪录和评量指标等后端资料集群外存储的UI式设置;更简单的集群升级;以及更多工作流程创建范本。
(首图来源:Google Cloud)