AWS 2023不只数据仓库、ML服务，AWS披露全服务资料治理的大战略

在年会中，AWS展现出前所未有的资料治理产品布局，从一开始只有少数资料产品具备治理功能，今年不只延伸到数据仓库Redshift也能支持这项能力，甚至从资料源头进一步涵盖到机器学习服务SageMaker，就连新推出的资料管理服务，都把治理作为必备功能，提供企业来运用。AWS对于资料产品策略明显转变，更让资料治理跃升为今年AWS资料产品最重要的发布之一，甚至不只资料产品，AWS更披露了要迈向一个全服务资料治理的大战略。

资料是企业数字转型的核心，随着资料量越来越庞大，许多企业开始发现，光只是搜集资料、完善资料分析还不够，要让企业内部资料容易使用，还要能容易做好法遵或合规，就必须落实资料治理，也因此，许多企业开始重视甚至强调资料治理，而开始受到各界的关注。近年来，各大公有云巨头也都开始抢进，布局企业资料治理这个新领域。

持续扩大资料治理布局，更多云计算资料产品都支持

去年年会，AWS推出Lake Formation服务，先在云计算资料湖产品中，开始提供资料治理的功能，到了今年，AWS持续布局资料治理的态势更加明显。

AWS数据和机器学习副总裁Swami Sivasubramanian在演讲中不只重提AWS端到端资料策略，今年更进一步披露未来端到端的资料治理策略。他表示，要串起组织中所有数据，需要有从创建自动化资料路径到资料治理工具的一整套解决方案，不只是数据集成，还包含了组织部门、团队与个人的集成。“通过资料治理，可以为资料断点、团队断点提供一个安全信道，如此一来，企业不同部门之间才能够彼此协作，并根据获取的数据来采取行动。”

从今年云计算资料产品更新来看，更多资料产品都开始提供资料治理能力。AWS数据仓库Redshift推出Centialized Access Controls for Redshift Data Sharing预览版，就是集成治理功能来强化资料访问管控与安全。他们利用Lake Formation资料治理方式来管理Redshift集群的资料共享，因此可以使Redshift共享资料达到颗粒度更高的权限管控，可以针对单一栏或行，来设置不同角色的访问权限，进而提高资料安全性，用户既不需要撰写脚本程序，也不用编写复杂程序。这也是AWS端到端资料治理策略不可缺少的重要一环。

主打内置治理的资料管理新服务

不光如此，AWS云计算资料管理服务也都开始支持这项能力。 AWS首席执行官Adam Selipsky亲自发布了新的资料管理服务DataZone，不只提供项目式的资料管理平台，更主打内置资料治理的功能，可对存储在AWS中的数据提供资料目录编制、探索、共享和管理。

Swami Sivasubramanian就指出， DataZone最大价值，就是兼具有强大的资料治理控制与访问简化，使组织中所有人可以很容易查看、组织和协作，将资料价值发挥到最大，加速企业创新。

DataZone提供统一资料协作环境（Zone），让资料项目团队可以在DataZone中发布所需资料，来提供团队成员查询、访问或共享，并搭配治理与访问权限管控，来确保资料使用安全。这样的好处是，可以大大简化跨部门或不同项目团队资料使用、分析流程以及治理策略集成，通过这项服务，不论是数据科学家、资料工程师或营销人员的资料利用，都能套用一致治理标准来管理，来加快数据分析与应用。

AWS对于治理布局不只如此，不只是从资料源头做好治理，对于用这些资料训练创建的ML模型也有提供相对应的治理方案。尤其，AI/ML应用当道，企业以ML为基础的应用越来越多、越来越关键，如何通过ML治理打造负责任AI，成了企业IT新课题。

AWS发布了新的资料管理服务DataZone，不只提供项目式的资料管理平台，更主打内置资料治理的功能，可对存储在AWS中的数据提供资料目录编制、探索、共享和管理。不论是数据科学家、资料工程师或营销人员的资料利用，都能套用一致治理标准来管理，来加快数据分析与应用，包含哪些资料可以共享、谁有权使用，以及使用期限等，确保只有授给该资料访问权限的团队成员才能使用。图片来源／AWS

SageMaker机器学习服务也加入治理功能

但以往要做到端到端ML流程治理，对企业挑战很大，因为一个ML模型的创建，往往涉及到许多不同团队协作，彼此相互配合，包括数据科学家、资料工程师，甚至是资料用户。但要拟定政策做好权限的管控，不仅很花时间，遇到不同使用单位，还得制定不同政策，甚至要与他人共享模型资讯也十分没效率，常常拿到都已经是旧的资讯。

为了解决这个问题，AWS先从最常用的机器学习训练环境全托管服务SageMaker开始，将ML治理功能带来SageMaker服务中，来强化企业端到端ML开发的治理和审计。

在SageMaker服务中推出3项ML治理新功能，AWS表示，通过这三个功能，就能涵盖端到端机器学习流程的管理与治理，分别是角色管理器（Role Manager）、模型卡片（Model Cards），以及模型仪表板（Model Dashboard）。

一开始决定不同角色使用权限，就是靠Role Manager来定义与拟定政策，因为结合自动化机制，让原本繁琐政策创建流程，缩短到几分钟内完成。开始创建ML模型时，就会需要用Model Cards集中管理ML模型所有资讯和文件文件，并采单一数据源（single source of truth）来构建ML文件状态更新的机制，以保持ML资讯一致，来涵盖完整ML模型生命周期。

最后，对于部署的ML模型性能表现，也能使用Model Dashboard工具来对ML模型性能进行统一监控，不只提高模型的透明度，当侦测到预测结果明显偏离预期时就会自动告警，通知相关人员加以处理。

“有了这些治理功能就可以帮助企业有责任构建ML治理”Swami Sivasubramanian补充。

但资料治理只支持资料湖、数据仓库、机器学习服务还远远不够。Swami Sivasubramanian直言，想要真正实现端到端治理，需要能够管理企业所有服务资料访问，“这是我们正在朝向发展的方向”他说。这正是AWS未来迈向一个全服务资料治理的大战略。