AWS现在让用户在Amazon EKS上部署Amazon EMR,这是一种新的EMR部署选择,使得开源大资料框架,能够获得EKS上自动化配置与管理的方便性,而且用户还可在同一个EKS集群上,同时运行Spark与其他类型的应用程序,以提高整体资源的利用率,并简化基础设施管理工作。
Amazon EMR提供Apache Spark、Hive、HBase、Flink、Hudi和Presto等框架,让用户可以执行各种大资料工作负载,EMR会自动配置和扩展这些框架,并使用EC2执行实例类型,以优化速度与价格需求。而部分用户则在EKS上,自己管理Apache Spark框架,以灵活调度大资料工作负载,但无法获得EMR安装和管理框架的方便性。
因此现在AWS让用户可以将EMR应用程序,部署到EKS集群上,与其他类型的应用程序一起运行,这种方式让所有工作负载,都可以共享资源,并且让用户以标准化的方式,统一管理和运营应用程序。而在EKS上执行的EMR,也可以获得在EC2上运行的好处,像是使用最新框架、性能优化的Runtime,或是用于调试的Spark用户接口等。
EMR会自动将应用程序、大资料框架以及预构建的连接器,都打包进容器中,并把应用程序部署到EKS集群上,自动管理日志记录和监控运行状况,官方提到,与EKS上的标准Apache Spark相比,EMR提供3倍性能的优化Spark Runtime。
AWS在其开发工具中,也集成了这项新功能,用户现在可以使用Apache Airflow、Amazon EMR Studio笔记本、AWS CLI和AWS SDK来提交分析应用程序,AWS开发适用EMR的Airflow Operator,用户可以在自我托管的Airflow中,使用该连接器,或是用户也可以在EMR Studio网页IDE,执行资料分析和资料工程等任务,通过EMR Studio的用户接口,就可以将笔记本程序代码,提交到EKS上的EMR集群。