AWS新产品战略以资料为主轴,更要朝全解决方案产业应用来发展

云计算服务龙头AWS每年冬天都会在美国拉斯维加斯举行年度全球用户大会,但受疫情冲击,2年前改为全线上进行,尽管相隔一年,随即于2021年恢复实体举办,但实际参加人数明显不如往年,甚至不到全盛时期一半,许多人都改线上参加,使得去年整场活动似乎没有像以往那么火爆。

到了今年re:Invent用户大会,官方虽还是采实体和线上并行,但从今年现场参加人数来看,至少超过5万人参加,人流逐渐恢复到疫情前的水准。今年活动重头戏,就是首日主题演讲,AWS首席执行官Adam Selipsky这次登台,相较去年首次登场,大多时候都在回顾AWS在各项领域发展,如今执掌一年多,他今年对这家公有云公司未来发展策略,明显有了更清晰的蓝图。

在他的带领下,AWS将以资料为主轴,通过集成、治理、安全和透明化,创建更广阔的数据探索领域,来完成数据创新,甚至更要朝向“全解决方案”产业应用来发展。

一开场,Adam Selipsky先细数他们如何协助大型企业用AWS云克服自身挑战,如BMW集团用公有云打造联网汽车服务颠覆驾驶体验,也有美国游戏开发商Riot Games靠云计算来应对每秒50万起事件通报与处理,提高用户体验以获得更高收益。还有全球最大证券交易所Nasdaq完成关键核心系统上云,提高金融市场证券发行业务处理效率,更多系统年底前将上云。

不仅大型企业有用,Adam Selipsky也引用数据强调,超过8成创业公司独角兽都是AWS客户。

Adam Selipsky不只一开始就大谈企业上云经验,他对于企业用户的重视,也反应在今年AWS产品发布上跟往年明显不同。长达2小时的主题演说,Adam Selipsky用合适工具(Right Tools)、集成(Integration)、治理(governance)以及洞察(Insight)4大主轴贯穿整场演讲。他表示,面对复杂的资料规模挑战,企业需要一套完整工具,可以处理各种类型资料,并将这些资料集成,然后提供治理和安全性,还要能够以可视化呈现,方便掌握和快速传递,来获得对于公司业务有价值的洞察。

他所提出的这个企业数据战略,可以说就是AWS新的产品策略,这次众多云计算产品发布和服务更新,都是围绕这个新策略发展,推出各种资料集成、治理、安全和透明化的服务方案。

执掌1年多,AWS首席执行官Adam Selipsky对这家公有云公司未来发展策略,明显有了更清晰的蓝图,将通过集成、治理、安全和透明化,来完成数据创新,更要朝向“全解决方案”产业应用来发展。摄影/余至浩

无服务器新布局:完善Serverless产品线,通吃旗下所有分析服务

在工具上,AWS已提供完整数据库、分析、ML/AI工具,协助企业做资料处理和运用。尤其在分析服务上,AWS今年对于无服务器(Serverless) 布局更加完整了。

去年AWS在年度大会上宣布AWS数据仓库服务Redshift能支持无服务器服务后,紧接下来,今年其他分析产品也陆续加入支持行列,包括大数据处理平台EMR、即时分析工具MSK,若加上原本就能用于无服务器形态的互动式查询服务Athena、资料流媒体服务Kinesis、资料集成服务AWS Glue以及BI服务QuickSight,就只差搜索和分析引擎服务OpenSearch还没Serverless化。如今,AWS也把这个缺口填平,在会中宣布OpenSearch也能提供这个服务方案。

Adam Selipsky强调:“没有人像我们可以做到所有分析服务都能提供Serverless。”

为何Serverless对于AWS如此重要?Adam Selipsky在会中并没有明讲,但他在去年大会上曾提到说,在他来看,云计算还在初期发展阶段,要先把下水道工程布局布好,所以AWS是以云还在起步的概念来布局,而Serverless就是一个重要战略,对于Serverless持续加快布局,就是要把包括分析在内的服务都Serveless化,这一步还在持续发展,但AWS先从资料分析服务着手,并用资料集成来加以扩大。

AWS今年在数据库和分析服务方面也有推出不少新功能。云计算互动式查询服务Athena集成Spark,就是其中一个重要更新,使企业可以在Athena控制台中使用Jupyter Notebook或Athena API来构建Spark应用程序,速度比起传统激活做法快75倍,而云计算资料集成服务AWS Glue,加入自动化监测和管理功能,来提高集成的资料品质。

AWS对资料服务布局还不只如此,还加强服务本身扩展性和可靠度,像是应对集群服务需求,DocumentDB更新后现在可以创建跨多节点的DocumentDB集群,以获得每秒数百万次读写吞吐量与PB级存储规模。Redshit数据仓库添加Multi-AZ预览版功能,可以提供高可用配置设置,能跨多个可用区进行配置,让数据仓库也能和其他数据库服务一样具有高可用。

资料新布局:以实现Zero-ETL愿景的资料集成为目标

AWS今年在资料集成也有新布局,以往要做到不同数据库、数据仓库的资料集成这件事,需要通过ETL(萃取、转置、加载)处理流程,对于分析人员来说,太花时间,因此需要有新的资料集成方式,来加快资料运用。过去手动资料集成方式已经跟不上现在资料动态的特性与企业运营快速增长。这也成了AWS想要替企业客户解决的痛点。

为了让资料集成能更无缝接轨,AWS这些年一直想要打造一个Zero-ETL的新资料集成方式,以便在分析和ML服务时,就能直接取得这些资料做分析,而不需要搬动任何资料。“我们目标就是要实现zero-ETL愿景。”Adam Selipsky强调。

原先AWS在少数资料服务中就提供类似Zero-ETL的资料集成功能,例如使用AWS流媒体服务Kinesis时可以直接取得Redshift的资料,执行SageMaker机器学习服务时,也能很快拿到Redshift和Athena数据库的资料做ML训练,不需要另外创建资料处理流程(data pipeline)或撰写程序。其他还有提供联合查询工具(federated querying tool ),可以跨数据仓库和数据库查询和分析数据。

在今年资料集成更新中,AWS朝向实现Zero-ETL迈出更大一步,彻底无缝集成两大数据云计算服务Aurora与Redshift的资料。通过Aurora zero ETL Integration with Redshift这个新功能,每次只要有新资料写入Aurora数据库中,资料就会直接同步到Redshift数据仓库,不需要重新创建和执行繁锁ETL流程。这种Zero-ETL资料集成方式,也让企业在Redshift实例中更多了一种资料分析来源,能从Aurora数据库集群的数据分析,来获得跨多应用的整体洞察。

AWS对于数据仓库的布局,也跨到集成流媒体大数据分析领域的主流平台Spark,企业以后在Redshift上构建和执行Spark应用将变得很容易,不需要使用第三方Apache Spark连接器,就能马上取得Redshift中的资料,提供给Amazon EMR作为大数据分析使用。这也为Redshift带来新机会,能让更多分析和ML服务都能用。

不光如此,Redshift在资料安全管控上也有加强措施,利用AWS Lake Formation资料湖治理功能,使Redshift数据共享达到颗粒度更高的权限管控,可以针对单一栏或行,来设置不同角色的访问权限,进而提高资料安全性。这也是AWS端到端资料治理策略一环。

在AI产品发展上,AWS延续去年端到端的资料战略,AWS从去年就已经构建更加完整的机器学习和AI服务,从底层机器学习框架及基础架构,到机器学习训练环境全托管服务SageMaker,以及上层AI服务。目前上万家企业用SageMaker创建ML模型,来执行每月上兆次的ML预测。

尽管,今年SageMaker没有重大更新,但AWS仍推出不少局部功能更新,持续补强SageMaker服务完整性,像是添加ML Governance治理功能,可以让开发者在端到端ML开发过程中,就能开始使用治理和审计,来满足企业需求克服ML治理的挑战。

对于使用SageMaker创建机器学习模型,现在也能支持地理空间类型资料作为ML训练资料,来帮助开发团队创建、训练和部署这类型的ML模型,还可以将模型预测结果显示在一个互动式3D地图来查看。SageMaker以后可以扩展到更多应用领域,如农业、都市发展、商业新据点拓展。

在No-Code服务上,AWS针对No-Code的QA工具Quicksight Q推出新功能,不仅能以自然语言进行提问,还能让用户可以用“为什么”来发问,再根据机器学习模型得到预测和分析的结果,给出建议或答案。而通过采用这个方式,可以降低专业IT或数据科学家的负担,让更多非专业素人更容易运用AI。

AWS云计算机器学习服务SageMaker今年虽然没有发布重大更新,大多是提供一些补强功能,但也持续加强SageMaker服务完整性,像是添加ML Governance治理功能,可以让开发者在端到端ML开发过程中,就能够开始使用治理和审计,来满足企业需求克服ML治理的挑战。摄影/余至浩

产业应用新布局:力推云计算供应链管理新服务

在产业应用上,AWS开始朝向全解决方案发展,新推出的AWS Supply Chain云计算供应链管理服务,就是瞄准全产业供应链管理需求。虽然目前是预览版,但AWS强调,通过这套服务,企业未来可以自动组合和分析跨多个供应链系统的数据。该服务更是借助了Amazon电商物流供应链多年经验与技术发展而来,但不限于电商,其他行业也能用。

更进一步来说,企业可以使用该服务内置的连接器,创建统一供应链数据湖,并运用母公司在供应链预先训练完的ML模型,来自动汇集整理各套ERP和供应链管理系统中的所有数据,然后将分析结果以可视化呈现,不仅方便管理者随时查看库存变化,也能以此创建风险预警机制,一旦经过ML判断为潜在高风险情况,就会提供警讯给负责人员,因此就能早一步采取避险行动。

但初期只有支持以SAP S/4HANA、SAP ECC、EDI、Amazon S3这4类为主的ERP、供应链相关系统和资料源。美国、欧洲将会先上线,其他地区陆续也将推出。

其他产业应用,还有支持大规模空间模拟的运算服务SimSpace Weaver。AWS表示,通过这个新运算服务,最多能支持超过1百万个独立动态实体,也就是可以在虚拟环境中模拟大规模人群、城市规模的环境以及复杂交通等。因为是提供企业或政府创建大型数字分身应用所需的运算基础设施,所以将空间模拟扩展到多个EC2执行实例,管理底层运算、内存或网络执行大规模模拟,将有助于加速企业数字分身应用发展。

在资料安全性也有获得不少强化,AWS推出名为Amazon Security Lake的安全部据湖服务,可以协助企业组织聚集、管理和分析日志和事件数据,包含AWS和其他合作厂商的数据,让安全威胁检测、调查和事件应变速度能更加提升。新数据管理服务DataZone则可以让资料项目团队在统一资料协作环境中发布所需分析资料,来提供团队成员查询、访问或共享,并搭配治理与访问权限管控,来确保资料使用安全。GuardDuty EKS Protection防护服务中,也提供部署容器runtime威胁侦测。

云计算基础设施也迎来不少更新,AWS目前超过600种运算实例类型,涵盖一般用途、运算优化、内存优化、存储优化、爆涨型性能及加速硬件等,AWS这次发布采用新一代Nitro系统和Graviton处理器的执行实例服务。

Nitro是AWS打造的EC2执行实例基础平台,历经4代改版后,新一代Nitro大幅提高网络传输能力,每秒封包传输速度较前一代提高60%,反应速度加快30%,每瓦性能也有获得40%改善。AWS还更新Graviton产品,尽管未是如外界预期Graviton4,而是改推出一款经改良的Graviton3E处理器芯片,但是该款处理器的矢量指令性能表现,较前一代Graviton3能再提高30%,可适用于HPC应用场景。

AWS运用Graviton3E和Nitro推出多个执行实例服务,包含能支持200Gbps超大网络带宽的C7gn,还有推出高性能计算专用的Hpc7G等。AWS这次也更新x86架构EC2实例,推出名为R7iz的新类型,能够支持第4代Intel Xeon Scalable处理器,使每个vCPU性能比z1d再提升20%。C7gn、R7iz先推预览版,Hpc7G最快明年才推出。

整体来看,AWS今年产品策略以扩大和延续为主,许多产品发布都是对既有服务或产品的补强,看似平淡无奇,但是这些更新背后,却是有着AWS更长远的企业数据产品战略的考量,正通过一步步扎实的步伐,一一把各种企业需求的关键拼图补齐。

AWS推出Supply Chain云计算供应链管理新服务,借助母公司电商物流供应链多年经验与技术,来汇集整理各套ERP和供应链管理系统中所有数据,然后将分析结果以可视化呈现,方便管理者从互动地图上随时查看库存变化,也能以此创建风险预警机制。图片来源/AWS

在基础设施也迎来不少更新,AWS目前超过6百种运算实例类型,涵盖一般用途、运算优化、内存优化、存储优化、爆涨型性能及加速硬件等。AWS这次发布采用新一代Nitro系统和Graviton处理器的执行实例服务。包含能支持200Gbps超大网络带宽的C7gn(上图),还有推出高性能计算专用的Hpc7G等。图片来源/AWS