AWS更新Redshift简化资料截取并提升可靠性

AWS针对其云计算数据仓库服务Redshift进行一系列更新,目标是要让用户能够更简单地截取资料,并且在安全可靠的环境,快速分析资料。

Redshift现在支持从S3自动复制资料,也就是说,Redshift能够自动将进到S3存储桶中的文件加载到数据仓库中,这包括CSV、JSON、Parquet和Avro格式,如此用户便不需要手动,或是重复执行复制程序这些繁琐的工作。另外,Redshift也开始支持流媒体截取,可以从MSK和Kinesis服务,每秒截取数百MB的资料。

AWS关联数据库服务Aurora的零ETL功能也已经与Redshift集成,如此用户便可以利用Redshift,以接近即时的速度,对存储在Aurora MySQL数据库的资料,进行分析和执行机器学习工作负载。AWS解释了服务集成背后的机制,当交易资料写入到Aurora后,资料便会在数秒钟内复制到Redshift中。复制过程不需要用户手动构建和维护复杂的资料工作管线,还可以选择从多个Aurora数据库,复制资料到同一个Redshift执行实例,以跨多个应用程序进行分析。

Redshift执行实例现在能够被部署于多个可用区域,以增加数据仓库的可用性,并利用自动恢复将恢复时间降至数秒钟,另外,Redshift提供动态资料遮罩功能,可以保护存储在数据仓库中的敏感资料,限制不同权限的用户能够查看到的资料。这使得管理者不需要创建多个人信息料副本,就能方便不同层级的用户和群组,访问不同层级的资料。

除此之外,Redshift现在也与Apache Spark集成,使得用户更容易在Redshift和无服务器Redshift服务上,构建和执行Spark应用程序。AWS Backup也添加了Redshift的支持,AWS Backup使用户可以定义备份策略来管理应用程序的资料保护,而现在Redshift也受AWS Backup保护,让用户在资料服务获得更一致的保护功能。