AWS 2023不只数据仓库、ML服务,AWS披露全服务资料治理的大战略

在年会中,AWS展现出前所未有的资料治理产品布局,从一开始只有少数资料产品具备治理功能,今年不只延伸到数据仓库Redshift也能支持这项能力, 甚至从资料源头进一步涵盖到机器学习服务SageMaker,就连新推出的资料管理服务,都把治理作为必备功能,提供企业来运用。AWS对于资料产品策略明显转变,更让资料治理跃升为今年AWS资料产品最重要的发布之一,甚至不只资料产品,AWS更披露了要迈向一个全服务资料治理的大战略。

资料是企业数字转型的核心,随着资料量越来越庞大,许多企业开始发现,光只是搜集资料、完善资料分析还不够,要让企业内部资料容易使用,还要能容易做好法遵或合规,就必须落实资料治理,也因此,许多企业开始重视甚至强调资料治理,而开始受到各界的关注。近年来,各大公有云巨头也都开始抢进,布局企业资料治理这个新领域。

持续扩大资料治理布局,更多云计算资料产品都支持

去年年会,AWS推出Lake Formation服务,先在云计算资料湖产品中,开始提供资料治理的功能,到了今年,AWS持续布局资料治理的态势更加明显。

AWS数据和机器学习副总裁Swami Sivasubramanian在演讲中不只重提AWS端到端资料策略,今年更进一步披露未来端到端的资料治理策略。他表示,要串起组织中所有数据,需要有从创建自动化资料路径到资料治理工具的一整套解决方案,不只是数据集成,还包含了组织部门、团队与个人的集成。“通过资料治理,可以为资料断点、团队断点提供一个安全信道,如此一来,企业不同部门之间才能够彼此协作,并根据获取的数据来采取行动。”

从今年云计算资料产品更新来看,更多资料产品都开始提供资料治理能力。AWS数据仓库Redshift推出Centialized Access Controls for Redshift Data Sharing预览版,就是集成治理功能来强化资料访问管控与安全。他们利用Lake Formation资料治理方式来管理Redshift集群的资料共享,因此可以使Redshift共享资料达到颗粒度更高的权限管控,可以针对单一栏或行,来设置不同角色的访问权限,进而提高资料安全性,用户既不需要撰写脚本程序,也不用编写复杂程序。这也是AWS端到端资料治理策略不可缺少的重要一环。

主打内置治理的资料管理新服务

不光如此,AWS云计算资料管理服务也都开始支持这项能力。 AWS首席执行官Adam Selipsky亲自发布了新的资料管理服务DataZone,不只提供项目式的资料管理平台,更主打内置资料治理的功能,可对存储在AWS中的数据提供资料目录编制、探索、共享和管理。

Swami Sivasubramanian就指出, DataZone最大价值,就是兼具有强大的资料治理控制与访问简化,使组织中所有人可以很容易查看、组织和协作,将资料价值发挥到最大,加速企业创新。

DataZone提供统一资料协作环境(Zone),让资料项目团队可以在DataZone中发布所需资料,来提供团队成员查询、访问或共享,并搭配治理与访问权限管控,来确保资料使用安全。这样的好处是,可以大大简化跨部门或不同项目团队资料使用、分析流程以及治理策略集成,通过这项服务,不论是数据科学家、资料工程师或营销人员的资料利用,都能套用一致治理标准来管理,来加快数据分析与应用。

AWS对于治理布局不只如此,不只是从资料源头做好治理,对于用这些资料训练创建的ML模型也有提供相对应的治理方案。尤其,AI/ML应用当道,企业以ML为基础的应用越来越多、越来越关键,如何通过ML治理打造负责任AI,成了企业IT新课题。

AWS发布了新的资料管理服务DataZone,不只提供项目式的资料管理平台,更主打内置资料治理的功能,可对存储在AWS中的数据提供资料目录编制、探索、共享和管理。不论是数据科学家、资料工程师或营销人员的资料利用,都能套用一致治理标准来管理,来加快数据分析与应用,包含哪些资料可以共享、谁有权使用,以及使用期限等,确保只有授给该资料访问权限的团队成员才能使用。图片来源/AWS

SageMaker机器学习服务也加入治理功能

但以往要做到端到端ML流程治理,对企业挑战很大,因为一个ML模型的创建,往往涉及到许多不同团队协作,彼此相互配合,包括数据科学家、资料工程师,甚至是资料用户。但要拟定政策做好权限的管控,不仅很花时间,遇到不同使用单位,还得制定不同政策,甚至要与他人共享模型资讯也十分没效率,常常拿到都已经是旧的资讯。

为了解决这个问题,AWS先从最常用的机器学习训练环境全托管服务SageMaker开始,将ML治理功能带来SageMaker服务中,来强化企业端到端ML开发的治理和审计。

在SageMaker服务中推出3项ML治理新功能,AWS表示,通过这三个功能,就能涵盖端到端机器学习流程的管理与治理,分别是角色管理器(Role Manager)、 模型卡片(Model Cards),以及模型仪表板(Model Dashboard)。

一开始决定不同角色使用权限,就是靠Role Manager来定义与拟定政策,因为结合自动化机制,让原本繁琐政策创建流程,缩短到几分钟内完成。开始创建ML模型时,就会需要用Model Cards集中管理ML模型所有资讯和文件文件,并采单一数据源(single source of truth)来构建ML文件状态更新的机制, 以保持ML资讯一致,来涵盖完整ML模型生命周期。

最后,对于部署的ML模型性能表现,也能使用Model Dashboard工具来对ML模型性能进行统一监控,不只提高模型的透明度,当侦测到预测结果明显偏离预期时就会自动告警,通知相关人员加以处理。

“有了这些治理功能就可以帮助企业有责任构建ML治理”Swami Sivasubramanian补充。

但资料治理只支持资料湖、数据仓库、机器学习服务还远远不够。Swami Sivasubramanian直言,想要真正实现端到端治理,需要能够管理企业所有服务资料访问,“这是我们正在朝向发展的方向”他说。这正是AWS未来迈向一个全服务资料治理的大战略。