AWS 2023扩大数据仓库Redshift产品广度,打造企业资料全能分析中心

今年AWS云计算数据仓库服务Redshift推出正式满10周年,但在这个特别的一年,AWS在年度大会上却一反常态,没有发布重大升级更新。取而代之的是,AWS在会中推出许多新功能,都是和Redshift相关,从更紧密资料集成、流媒体资料分析到强化安全访问。尽管看似都是些小更新,但AWS没说的是,藏在Redshift这次更新背后的更大企图,就是要把Redshift打造成企业资料集散地,来符合各种现代化应用的使用,以及能汇集整理各种类型资料,提供AI分析和后续应用,更要让这个能够通吃各种资料类型的新一代数据仓库架构,成为加速企业资料现代化的关键产品。

要让Redshift成为通吃各种资料类型的新一代数据仓库架构

AWS数据和机器学习副总裁Swami Sivasubramanian在数据主题演讲中指出:“所有新功能都瞄准同一个终极目的,不管资料在哪里都可以集中到Redshift上来分析。”显然,AWS就是押宝Redshift,未来能够成为企业资料的核心。

Redshift是第一个采用MPP(大量平行处理)架构的云计算数据仓库,号称比本地部署能以更经济高效的方式对大量数据进行快速分析及查询,并提供跨数据仓库、核心数据库和资料湖分析结构化和半结构化资料执行SQL查询,更具有高扩展弹性,Redshift Serverless在今年7月正式GA,让云计算数据仓库也能应对资料量多变的资料分析任务。目前,上万家企业使用Redshift,每天处理资料总量达到EB级。

但要打造Redshift成为企业统一的资料集散地,只是这样还不够。从今年功能更新来看,AWS对数据仓库布局更加完整,正一步步打通Redshift服务在企业资料架构中的各环节,让它的产品完整度更高,涵盖到不同应用层面,支持各种企业分析需求和资料集成。

AWS今年推出的第一个新功能,就是将资料前处理ETL步骤简化,甚至全面Zero-ETL化。ETL指的是资料萃取、转置、加载的过程,以往企业会使用这个方式将多系统中的资料集成到单一数据仓库中,以便进行分析和后续处理,过去Redshift要从其他数据库、资料湖拿取资料,都得执行ETL程序,但如此一来,资料分析就会太慢,甚至针对不同数据源或资料类型,就需要创建不同ETL流程,更不利于后续维护。直到现在才解决。

靠Zero-ETL化,解决Redshift跨数据库资料集成的痛点

AWS推出Aurora Zero-ETL integration with Amazon Redshift这个新功能,结合Zero-ETL做法,让Aurora数据库中存储的结构化资料可以自动汇进Redshift,不需要创建和维护复杂的资料处理流程,来执行ETL操作。因为可以将资料同步时间缩短到几秒内,这意味着,企业可以更快从Aurora数据库取得所需资料,进行后续分析,还能执行如ML高端分析、具体查看图、资料共享以及联邦查询等,并从这些综合资料分析中获得整体的洞察。

不仅如此,Redshift还添加自动复制功能,让S3资料湖和Redshift之间更加紧密集成,用户从S3中将资料复制到Redshift中,只要一键就能完成所有操作,不像以前多使用S3来做备份,需要特别分析才将资料放进Redshift。

有了这个新功能以后,以后只要侦测到S3文件夹有更新文件,就会自动执行Redshift复制任务,等于是从S3就能直通到Redshift数据仓库,就能大大简化资料复制流程。对于资料分析人员来说,只要从Redshift就能拿到各种类型的S3资料,而且能支持不同文件格式,如CSV、parquet档或其他文本档。不过目前还是预览版。

不仅能更缓存用AWS资料,对于第三方资料集成与分析,AWS推出了名为Informatica Data Loader的免费资料集成工具,只要通过Redshift控制台,就能将第三方资料文件快速上传至Redshift,目前可以支持Salesforce、Marketo在内等超过30个原始资料源,可跨多种资料格式在Redshift中执行高速且大量的资料上传作业。

云计算流媒体资料的集成,也是Redshift这波更新一大重点,集成Kinesis Data Streams和Amazon MSK两大资料流媒体引擎,强化Redshift对于流媒体资料截取的支持能力,使企业在取得流媒体资料时,不需要像以往得先将资料暂存到S3中,隔段时间后,再将整批数据加载到Redshift中,导致流媒体分析的速度变慢。现在就没有这个问题,所有流媒体资料都能接近即时导入到Redshift数据仓库中。

甚至,AWS对于数据仓库的布局,如今也直接集成流媒体大数据分析领域的主流平台Spark。借助Amazon Redshift Integration for Apache Spark这个新功能,企业以后在Redshift和无服务器Redshift服务上执行Spark应用变得更简单,不像以往使用Amazon EMR、SageMaker以及AWS Glue服务执行Spark应用时,需通过第三方Spark连接器才能读写Redshift资料,现在只要通过预先打包好的Redshift Connector for Spark工具,就能迅速取得Redshift资料,甚至激活速度比起传统快10倍,还能支持Java、Python、Scala等语言编写Spark应用程序。这也意味着,将可扩大数据仓库在流媒体分析大数据应用范围。

资料隐私和治理获得大幅强化

资料管控更是Redshift数据仓库要能够通吃各种资料类型成为统一的资料集散地的关键。

在今年更新中,AWS也大幅强化了Redshift的安全与可靠性。在安全性上,AWS推出两项访问管控新功能,前者是动态资料遮罩(Dynamic Data Masking)预览功能,这是资料保护常见的功能,现在AWS把这项能力放进Redshift中,强化资料隐私和处理。基于该功能,用户从SQL查询结果中就只会看到筛选过滤后的内容,对涉及敏感性个人信息或其他机密敏感资料就会进行遮敝或模糊化处理,没有赋给权限的用户就看不到,防止敏感性资料遭违法搜集和利用,以确保合乎隐私的要求。

后者则是Lake Formation-managed Redshift datashares功能,AWS让企业也能利用资料湖管理工具Lake Formation管理Redshift的资料共享权限,通过这个集中式管理方式,企业就能使用更精细的访问控制,设置不同角色的资料共享权限,也能确保在不同AWS账户或跨区域中,都能安全地共享Redshift集群即时资料。目前同样推出预览板。

AWS推出最后一项新功能,则是可以提高Redshift服务可用性。Redshit添加Multi-AZ功能,让企业可以在多个可用区部署Redshift,借此可以达到跟其他AWS数据库服务一样具备高可用,来确保服务可以全天运行不停机,避免一旦服务中断,企业就没办法通过它提供预测或协助高层加快决策,导致可能造成运营业亏损失的风险。 除了可以Redshift RA3实例将数据存储在Redshift Managed Storage中,也支持常见的灾难恢复功能,如自动备份、故障转移等。