加速你的大数据分析脚步!用Google Cloud一条龙完成ETL到AI应用

在消费者接触点碎片化且市场需求变化迅速的现在,如何快速地搜集、集成、分析及应用数据是企业能否抢得先机的关键!常年荣获Google Cloud合作伙伴奖的Cloud Ace,此次规整了可高效实践四大数据分析步骤的Google Cloud Platform(GCP)工具,及不同需求下的搭配策略,希望协助企业在更短的时间内最大化数据价值。

首先,我们最初拿到的资料集通常是原始资料(Raw Data),而这些Raw Data是不能被拿去做任何分析的!因为未经处理的Raw Data常会有资料格式不正确、不一致、空值很多或编码错误等问题,也就是所谓的脏数据。因此,在执行大数据分析时,资料前处理往往会花费许多时间,通过了解整份资料每个字段所代表的意义,进而根据这些字段决定该如何处理与清洗,让整份资料集变成一份可分析的资料,步骤虽繁琐但也至关重要。

图片来源:freepik

资料前处理其实就是大家耳熟能详的ETL(Extract, Transform, Load),在GCP上,除了可单纯使用BigQuery,还可再搭配Cloud Dataflow与Cloud Pub/Sub。针对即时资料(Streaming Data),资料产生时会触发Cloud Pub/Sub并立即通过Cloud Dataflow加以处理。而针对批次资料,则可通过外部工具或自行撰写的调度程序,将资料发送到Cloud Storage(GCS)后,再由Cloud Dataflow进行资料处理(详见下图)。

其中Cloud Dataflow属于全托管的资料处理服务,不仅可自动安排资料处理流程、部署及管理资源处理作业,还可借由水平调度工作站资源,提高资源使用率以符合成本效益。另外诸如Dataprep、Dataproc和Data Fusion,也都是GCP上实用的资料处理工具,下面简单介绍这三项工具的用途。

首先,Dataprep可通过图形接口(无需编写程序代码)浏览、清理及准备相关资料(结构化与非结构化资料),也能处理任何规模的资料,自动侦测结构定义、资料类型及异常(如缺值、离群值和重复值),此外还会建议及预测最合适的资料转换作业。而Dataproc则像是GCP上的“全托管式”Apache Hadoop、Spark集群。最后,Data Fusion和Dataprep一样提供图形接口,用户无需编写程序代码就可部署ETL/ELT资料渠道(Data Pipeline)。

通过GCP完成自动化处理与清洗资料后,就可以将这些干净的资料导入数据仓库(Data Warehouse)中,也就是ETL中的L(Load)。有人也许会问,为什么不直接把Raw Data放入数据仓库清洗后再做分析呢?原因其实很简单,因为数据仓库主要是存放干净、Schema一致(准备被分析)的资料;资料湖(Data Lake)才主要用来存放来源不同的Raw Data,保留资料原始格式。所以数据仓库基本上只负责分析而不负责清洗。

图片来源:pixabay

在GCP上,GCS及BigQuery是两大最常用的资料存储服务。通常,GCS会作为Data Lake使用;BigQuery则作为数据仓库使用。其中BigQuery属于无服务器服务(Serverless Service),不仅容易管理,还具备SQL查询接口,此外也支持即时(Streaming pipeline)或批次(Batch pipeline)的资料导入。

有干净的资料存储在数据仓库后就可正式开始分析了!如果不是太复杂的分析,可直接利用BigQuery的SQL查询接口分析资料,或使用标准SQL语法创建或执行机器学习(Mechine Learning,ML)模型。另外,前面提到的资料处理工具Dataflow和Dataproc ,也都能作为资料分析的辅助。Dataflow有即时AI功能,可构建各种智能解决方案,包含预测分析、异常侦测、即时个性化和其他高端分析用途等。而Dataproc则可通过Apache Spark ML执行机器学习,或搭配BigQuery进行分析。

图片来源:pixabay

最后,GCP也有推出预测分析所需的相关服务,除了上述所提的BigQuery ML,Vertex AI与AutoML的搭配也很推荐!因为我们不用会写Code,就可快速创建与训练模型。如要以自订工具创建ML模型,也能用少少的Code训练出好模型,使用门槛低之外成效也很显著。

最后,在资料可视化上最常使用的就是Data Studio。易于理解的互动式Dashboard图像报表让我们可以在一份报告中即时比较、过滤和组织所需要的确切资料。另外,Data Studio可连接的数据源端也很丰富,除了Google本身的BigQuery、Cloud SQL和Google Sheet,也支持AWS的Redshift,加上可以免费使用,是企业能以高效低成本的方式实现Business Intelligence的有力帮手。

Data Studio接口,截屏自:Google Data Studio官网|©2022 Google