Amazon EMR on EKS现可使用自定义镜像文件加速应用程序部署

AWS发布Amazon EMR on EKS更新,支持自定义镜像文件,用户不必再等待EMR on EKS耗时地重新构建镜像文件,可以直接在EKS集群上,使用自家持续集成工作管线所生成的镜像文件。

Amazon EMR on EKS是AWS才在re:Invent大会上发布的新服务,AWS大资料服务Amazon EMR,能够部署到Kubernetes服务Amazon EKS(Elastic Kubernetes Service),如此,用户就可以将EMR应用程序,部署到其他执行应用程序的EKS集群上,以简化操作和管理工作,并且能够共享资源降低执行成本。

同时也能让原本在Kubernetes上执行Apache Spark的用户,简单地搬迁到Amazon EMR on EKS,不仅能使用经性能优化的Runtime,还可以获得使用Apache Airflow和AWS Step Functions集成执行工作管线,以及使用Spark UI进行调试等好处。

在用户提交工作时,EMR便会使用大资料框架,自动打包应用程序到容器中,并且提供预构建的连接器,和其他AWS服务集成,接着由EMR在EKS集群上部署应用程序,并管理工作执行、日志记录和监控。也就是说,目前EMR on EKS会在工作提交时,才动态添加外部存储的应用程序相依项目。

不过这个过程过于耗时,AWS现在让用户可以使用自定义镜像文件,直接将服务指向现有镜像文件并且开始执行,借此提高执行性能。通过自定义镜像文件,用户可以使用自己的持续集成工作管线,以优化的EMR Spark Runtime为基础,创建包含应用程序和相依项目的容器镜像文件,这将能减少构建镜像文件的时间,并且预测本地开发或是测试容器启动的时间。

用户可以创建基础镜像文件,添加企业专属的标准函数库,然后将其存储在注册表服务Amazon ECR(Elastic Container Registry)中,自定义镜像文件能够包含特殊的应用程序相依项目,并且部署到测试和生产环境中,用户只要将EMR on EKS指向自定义镜像文件,就可以开始执行应用程序。

这个新功能支持自动化流程,因此用户可以使用现有持续集成工作管线,添加相依项目到镜像文件中,并且使用Amazon EMR漏洞扫描功能,或是使用EMR验证工具来检查文件结构和Runtime版本。EMR on EKS的API也集成到了诸如AWS Step Functions和MWAA(AWS Managed Workflows for Apache Airflow)调度服务,供用户以自动化的方式,在工作流程中生成镜像文件。