BigQuery十年最大升级,终于通吃非结构化资料

今年Next大会最重要的产品发布就是BigQuery大升级,这个在2010年首度亮相,2011年正式推出的史上第一款Serverless云计算数据仓库,发布了10年来最大一次的功能升级,终于开始支持非结构化资料。

早在2010年的Google IO大会上,Google就展示了最早的BigQuery服务,可以提供结构化资料的机器学习预测,隔年正式推出。图片来源/GCP

GCP从去年开始展开BigQuery产品线的升级,推出了多云部署版本BigQuery Omni,可以将BigQurey部署到其他公有云,如AWS和Azure上,来提供跨多云的单一大数据分析平台能力,而不用像过去得将所有资料集中到GCP才能使用BigQuery。但这一步,只是BigQurey产品大升级的前奏。

BigQuery成为Google发展通用资料平台的关键,去年先推出BigQuery Omni将BigQuery体验带入到其他公有云,今年开始展开BigQuery各项升级和强化。图片来源/GCP

到了2022年1月,BigQuery更开始跨出结构化资料的范畴,正式支持半结构化资料JSON资料格式,引起各界高度关注。因为JSON是Web应用最常用的资料格式,这一步让GCP超强的大数据分析工具,可以直接导入、原生处理各种Web应用、移动App产生的第一手资料,更容易成为各类Web应用的主要分析资料集散中心。

关键升级1:今年开始支持非结构化资料

没想到,GCP对BigQuery布局不只如此,到了10月Next大会,更进一步宣布BigQuery将开始支持非结构化资料,从图片、声音、视频、流媒体图片到庞大的Log文件,通通都可以支持。

BigQuery今年开始支持非结构化资料,可以用SQL指令创建工作流程,提供非结构化资料进行查询、整合、预测、治理和共享等处理。图片来源/GCP

BigQuery推出了对象表格(Object Tables)预览版,可以将非结构化资料源文件案和相关的元数据,存储到字段式的资料表中,也能用来创建SQL指令所设计的工作流程,进一步提供查询、整合、预测、治理和共享等处理方式,让企业DBA或开发人员以惯用的SQL指令来处理非结构化的资料。

BigQuery推出对象表格(Object Tables)预览版,可以将非结构化资料源文件案和相关的元数据,包括图片、声音、视频等存储到字段式的资料表上使用SQL指令。图片来源/GCP

BigQuery研发负责人Google Cloud产品总监Brian Welcker指出,BigQuery支持非结构化资料最大的价值是,可以强化Google的AI技术优势,直接用BigQuery SQL来运用Google各种AI产品。

BigQuery是第一个将运算和存储彻底分开的数据仓库服务,来提供高可用性和扩展性,特色是支持SQL兼容语法指令,提供栏或列等级的精细访问控制、顾客自管加密密钥等安全性。

目前,BigQuery资料用量达到PB级的企业,超过了1百家,BigQuery平均每一秒要处理110TB的顾客资料,所搭配的内存式分析BI引擎,每个月查询次数超过了30亿次。

但是,过去10年来,BigQuery一直有一个最大的不足,就是只能支持结构化资料。因为许多计算机视觉、语音识别、语言翻译、自然语言处理等AI成熟应用,大多是以非结构化资料为主要素材,过去,要使用GCP上这类影音相关AI,得使用GCP其他云计算存储服务来保存训练资料。资料分散多套平台,想要统一权限管理、管理政策、资料治理,开发者或维护团队得到不同平台上,使用不同的机制来创建同样的政策,版本维护和政策同步也相当麻烦,更提高了配置错误的风险。

不只是管理机制的复杂化,非结构化资料的存储服务往往由基础架构运维团队负责,而而结构化资料则由资料团队负责,想要创建一个通吃两类资料的分析模型,需要两组运维团队合作,更添加了组织分工的成本和协作沟通的复杂度。

许多数据仓库大厂,早在多年前,就纷纷从结构化资料,开始支持非结构化资料,就是为了将各种资料集结到单一数据仓库系统中来统一治理,但是BigQuery迟迟没有支持,直到今年。

通过这个BigQuery新发布的Object Tables功能,可以将存储在Gogole存储Bucket上的各种类型的对象,以资料表的形式呈现在BigQuery中,可以使用SQL指令查询这些完整的对象元数据,也可以创建SQL工作流程,能简化增量处理作业,创建对象资料表后也可以提供颗粒度更细致(例如按资料字段控制)的权限控制机制,也能安全的共享这些非结构化资料。

另外,也可以直接在BigQuery中套用GCP现成的AI框架和机制来训练这些非结构化资料,甚至直接使用内置或训练好的机器学习模型来推论。例如直接用真实房屋屋内照片结合出租记录,创建一个用真实屋内设备来预测出租结果的模型。

“Google资料云战略的目标是,创建一个开放、集成和智能的资料生态圈,来加速企业顾客的创新。”Brian Welcker指出:“BigQuery正是Data Cloud的核心。”

因此,不只是扩大所支持的资料类型,GCP更早从去年就开始陆续布局,各种扩大BigQuery资料接触面、资料流通力的机制,要以BigQuery来打造更完整的资料生态圈。目前已经累计超过800家资料云合作厂商。

关键升级2:强化与商用数据库的迁移和互通机制

今年初发布的BigQuery迁移服务,也在10月的Next大会中正式GA,可以支持12种数据源的转移作业,包括了Teradata数据仓库、IBM Netezza、Oracle数据库和Amazon Redshift。这是GCP用来吸引企业搬迁旧有数据仓库上云的重要手段。

另外,GCP的变动资料截取服务Datastream也开始支持BigQuery,目前是预览版,可以将多个企业级数据库的流媒体资料的变动,将资料和Schema即时复制截取到BigQuery中,不需要另外的处理程序,来强化BigQuery对于即时OLTP资料的分析能力。可以支持甲骨文数据库、MySQL数据库、PostgreSQL(预览版)和AlloyDB。这也是另一个用来打通BigQuery与现有商用数据库间的重要资料互通机制,可以快速复制现有数据库的即时资料。

关键升级3:支持JSON强化Log大数据分析

支持Log资料分析也是BigQuery今年的主打特色,除了原本就提供的Storage Write API资料导入服务,可以提供到每秒百万次操作不影响查询性能的能力,来搜集各种即时流媒体的Log资料,另外,添加了对原生JSON资料形态的支持,能够直接导入json文件来产生以字段存储的表格,也提供了新的文本搜索索引,可以对庞大的JSON等log资料进行精确搜索,快速找出符合特定文本模板的资料列,“这是媲美在草丛中找针的精准搜索能力。”Brian Welcker这样比喻。

关键升级4:可视化SQL调试和优化工具

SQL查询是BigQuery最大卖点,但要从复杂的SQL指令来了解执行指令的运行情况和性能瓶颈,对DBA来说是一大挑战,GCP这次大会中,也发布了一款SQL查询调试工具Query Inspetor预览版,可以用可视化方式来调试、解决SQL查询指令的性能问题,例如产生查询指令的运行流程图,来了解不同查询任务之间的资料流向,来找出影响性能的瓶颈。

“这是用来管理所有查询、诊断、比较同类查询和优化查询的一站式工具。”Brian Welcker补充。

另外,过去在Google Workspace商用付费版本才提供的Connected sheets功能,可以用Google Sheets试算表直接连接BigQuery,来读取资料进行分析,现在变成了免费功能,个人版也能连接BigQuery,以分析人员或业务人员熟悉的操作接口,来访问BigQuery上的分析报表和数据。

SQL查询调试工具Query Inspetor预览版,可以用可视化方式来调试、解决SQL查询指令的性能问题。图片来源/GCP

关键升级5:将GCP全套MLOps工具带来BigQuery

BigQuery早在2018年就内置集成了机器学习功能推出BigQuery ML,可以用标准SQL查询指令,在BigQuery中训练ML模型,虽然在这次Next大会上,没有太多更新,但是,这次也推出了一个杀手级的连接机制,可以将BigQuery ML的模型,集成到Vertex AI平台的模型存储库。

Vertex AI是Google去年推出的全托管式机器学习平台,将一系列Google内部所用的机器学习工具和框架,组合成了一套AI训练服务平台,也包括了一系列的MLOps工具,涵盖了训练资料管理、ML训练、雏形开发、实验、模型部署,甚至是模型解释,以及模型上线后的监控,可以提供端到端到运维的完整ML应用生命周期管理。

例如提供了像Vertex Model Monitoring、ML Metadata与Pipelines这些MLOps工具,可以用来创建自助式的ML模型,以及提高重复利用率。BigQuery ML添加了一项与Vertex AI模型存储库的连接机制,可以将BigQuery ML训练出来的模型,自动注册到这个存储库,来进行管理、关注、版本管控,甚至可以存储BigQuery ML模型的元数据和各种runtime依赖性作为日后重复部署之用。

不只如此,创建连接之后,还能将BigQuery ML的模型,集成到Vertex AI模型评估和部署机制上,来进行脱机评估或上线的关注,也可以统一管理在BigQuery的机器学习模型发布流程,从模型审查、核准、发布甚至是到退版都能管理。换句话说,虽然只是ML存储库的连接,但这一步等于将Vertex AI的全套企业级MLOps管理平台,带来了BigQuery数据仓库。

关键升级6:同一套SQL支持更多种类分析任务

使用SQL指令来完成各种分析任务是BigQuery最大的卖点,Google也不断扩展SQL指令可以完成的任务,一方面,除了强化BigQuery机器学习开发流程之外,GCP在几年前所并购的ETL资料处理工具Dataform,现在终于整合到BigQuery产品线中,推出了新的预览版,可以提供一个类SQL的语言称为SQL X来撰写各种资料转换工作流程,管理各种不同的ETL资料处理流程,也能搭配GitHub进行版本管控,引进软件开发流程来强化资料分析团队的协作,这个产品可以强化BigQuery资料前处理能力。

在强化查询指令的功能上,BigQuery SQL也开始支持Spark流媒体分析运算,可以将Spark程序写成Store Procedure,然后直接在BigQuery中执行Spark的任务,也能套用同样的安全和治理政策,例如套用GCP IAM权限,或是套用与BigQuery上同样的精细权限管控(栏或列)设置等。

在结构化资料当道的时候,BigQuery曾经被誉为最强的大数据分析工具之一,但随着AI技术成熟,各种非结构资料暴增,非结构化资料成了企业分析需求的大宗,各家云计算存储服务、资料湖和数据仓库系统也纷纷跟进,形成多家竞逐,各有擅长的态势。

GCP今年开始大力押宝BigQuery,BigQuery在推出11年之后,终于跨入了非结构化资料场景,后发能否再度抢下头名,这正是GCP新资料战略接下来的考验。

新策略抢攻SRE、SecOps和NetOps运维大数据需求

在今年Next大会上,BigQuery除了大规模翻新产品功能之外,在产品推广策略上,也锁定了企业最常见的大数据分析应用场景,就是运维大数据分析需求。

Google Cloud产品经理Christopher Crosbie指出,今年特别要瞄准企业三大运维场景的Log分析需求,一种是DevOps和SRE场景,想要观察和了解各种AP的行为,加快调试速度来缩短系统宕机的恢复时间(MTTR),第二种是SecOps场景,企业想要从庞大安全Log中,更容易调查与安全相关的攻击事件资料。最后一类是IT网络运维(NetOps),需要集成各方资料来提供更完善的网络洞察。

但是,企业要处理的Log资料需求和类型非常多样,常会运用不同的Log分析系统,来处理上述不同类型的需求。但是Christopher Crosbie指出,Log系统越多套,会衍生不少问题,例如,资料经过越多系统,到达最终系统会产生延迟问题,其次,不同系统或处理机制对资料可能有不同的转换处理,会导致缺乏清楚的单一资料正确来源,当要套用ML训练时,要集成多套数据源的串联,容易导致ML流程的断裂,对运维团队而言,也得经常在不同系统间切换和转移资料,更增加工作流程的复杂。

BigQuery在迈向通吃各类资料和各种分析需求的大战略之下,也想要成为通吃不同类型Log分析需求的单一大数据平台,早在1年前,GCP先推出了Stroage Wirte API,可以快速将各类Log数据源写入到BigQuery中,GCP宣称可以达到每秒100万笔写入操作,也不会影响查询性能。

在今年Next大会,Google Cloud产品总监Brian Welcker就表明,BigQuery要推出Log大数据分析,除了原本的Stroage Wirte API之外,再加上了原生JSON资料类型支持正式GA,也新推出了庞大资料的搜索索引功能。

Christopher Crosbie表示,不只可以支持从多种资料类型批次转换成JSON,也可以跟Dataflow、JDBC、Biglake Tables集成,将SQL查询结果快速输出成JSON来提供他用。而搜索索引则不需要知道原本的数据结构,也能搜索结构化或非结构化的独特资料,也提供时序性资料的最近几笔查询条件的优化,例如最近30笔,可以用于Log分析常用最新变化查询之用。

Google还在自家Cloud Logging服务下,用BigQuery打造了一个新的Log分析预览版,可以用来汇集整理来自各种云计算环境的Log分析,可以利用SQL语法来处理和分析这些云计算Log。