BigQuery十年最大升级，终于通吃非结构化资料

今年Next大会最重要的产品发布就是BigQuery大升级，这个在2010年首度亮相，2011年正式推出的史上第一款Serverless云计算数据仓库，发布了10年来最大一次的功能升级，终于开始支持非结构化资料。

早在2010年的Google IO大会上，Google就展示了最早的BigQuery服务，可以提供结构化资料的机器学习预测，隔年正式推出。图片来源／GCP

GCP从去年开始展开BigQuery产品线的升级，推出了多云部署版本BigQuery Omni，可以将BigQurey部署到其他公有云，如AWS和Azure上，来提供跨多云的单一大数据分析平台能力，而不用像过去得将所有资料集中到GCP才能使用BigQuery。但这一步，只是BigQurey产品大升级的前奏。

BigQuery成为Google发展通用资料平台的关键，去年先推出BigQuery Omni将BigQuery体验带入到其他公有云，今年开始展开BigQuery各项升级和强化。图片来源／GCP

到了2022年1月，BigQuery更开始跨出结构化资料的范畴，正式支持半结构化资料JSON资料格式，引起各界高度关注。因为JSON是Web应用最常用的资料格式，这一步让GCP超强的大数据分析工具，可以直接导入、原生处理各种Web应用、移动App产生的第一手资料，更容易成为各类Web应用的主要分析资料集散中心。

关键升级1：今年开始支持非结构化资料

没想到，GCP对BigQuery布局不只如此，到了10月Next大会，更进一步宣布BigQuery将开始支持非结构化资料，从图片、声音、视频、流媒体图片到庞大的Log文件，通通都可以支持。

BigQuery今年开始支持非结构化资料，可以用SQL指令创建工作流程，提供非结构化资料进行查询、整合、预测、治理和共享等处理。图片来源／GCP

BigQuery推出了对象表格（Object Tables）预览版，可以将非结构化资料源文件案和相关的元数据，存储到字段式的资料表中，也能用来创建SQL指令所设计的工作流程，进一步提供查询、整合、预测、治理和共享等处理方式，让企业DBA或开发人员以惯用的SQL指令来处理非结构化的资料。

BigQuery推出对象表格（Object Tables）预览版，可以将非结构化资料源文件案和相关的元数据，包括图片、声音、视频等存储到字段式的资料表上使用SQL指令。图片来源／GCP

BigQuery研发负责人Google Cloud产品总监Brian Welcker指出，BigQuery支持非结构化资料最大的价值是，可以强化Google的AI技术优势，直接用BigQuery SQL来运用Google各种AI产品。

BigQuery是第一个将运算和存储彻底分开的数据仓库服务，来提供高可用性和扩展性，特色是支持SQL兼容语法指令，提供栏或列等级的精细访问控制、顾客自管加密密钥等安全性。

目前，BigQuery资料用量达到PB级的企业，超过了1百家，BigQuery平均每一秒要处理110TB的顾客资料，所搭配的内存式分析BI引擎，每个月查询次数超过了30亿次。

但是，过去10年来，BigQuery一直有一个最大的不足，就是只能支持结构化资料。因为许多计算机视觉、语音识别、语言翻译、自然语言处理等AI成熟应用，大多是以非结构化资料为主要素材，过去，要使用GCP上这类影音相关AI，得使用GCP其他云计算存储服务来保存训练资料。资料分散多套平台，想要统一权限管理、管理政策、资料治理，开发者或维护团队得到不同平台上，使用不同的机制来创建同样的政策，版本维护和政策同步也相当麻烦，更提高了配置错误的风险。

不只是管理机制的复杂化，非结构化资料的存储服务往往由基础架构运维团队负责，而而结构化资料则由资料团队负责，想要创建一个通吃两类资料的分析模型，需要两组运维团队合作，更添加了组织分工的成本和协作沟通的复杂度。

许多数据仓库大厂，早在多年前，就纷纷从结构化资料，开始支持非结构化资料，就是为了将各种资料集结到单一数据仓库系统中来统一治理，但是BigQuery迟迟没有支持，直到今年。

通过这个BigQuery新发布的Object Tables功能，可以将存储在Gogole存储Bucket上的各种类型的对象，以资料表的形式呈现在BigQuery中，可以使用SQL指令查询这些完整的对象元数据，也可以创建SQL工作流程，能简化增量处理作业，创建对象资料表后也可以提供颗粒度更细致（例如按资料字段控制）的权限控制机制，也能安全的共享这些非结构化资料。

另外，也可以直接在BigQuery中套用GCP现成的AI框架和机制来训练这些非结构化资料，甚至直接使用内置或训练好的机器学习模型来推论。例如直接用真实房屋屋内照片结合出租记录，创建一个用真实屋内设备来预测出租结果的模型。

“Google资料云战略的目标是，创建一个开放、集成和智能的资料生态圈，来加速企业顾客的创新。”Brian Welcker指出：“BigQuery正是Data Cloud的核心。”

因此，不只是扩大所支持的资料类型，GCP更早从去年就开始陆续布局，各种扩大BigQuery资料接触面、资料流通力的机制，要以BigQuery来打造更完整的资料生态圈。目前已经累计超过800家资料云合作厂商。

关键升级2：强化与商用数据库的迁移和互通机制

今年初发布的BigQuery迁移服务，也在10月的Next大会中正式GA，可以支持12种数据源的转移作业，包括了Teradata数据仓库、IBM Netezza、Oracle数据库和Amazon Redshift。这是GCP用来吸引企业搬迁旧有数据仓库上云的重要手段。

另外，GCP的变动资料截取服务Datastream也开始支持BigQuery，目前是预览版，可以将多个企业级数据库的流媒体资料的变动，将资料和Schema即时复制截取到BigQuery中，不需要另外的处理程序，来强化BigQuery对于即时OLTP资料的分析能力。可以支持甲骨文数据库、MySQL数据库、PostgreSQL（预览版）和AlloyDB。这也是另一个用来打通BigQuery与现有商用数据库间的重要资料互通机制，可以快速复制现有数据库的即时资料。

关键升级3：支持JSON强化Log大数据分析

支持Log资料分析也是BigQuery今年的主打特色，除了原本就提供的Storage Write API资料导入服务，可以提供到每秒百万次操作不影响查询性能的能力，来搜集各种即时流媒体的Log资料，另外，添加了对原生JSON资料形态的支持，能够直接导入json文件来产生以字段存储的表格，也提供了新的文本搜索索引，可以对庞大的JSON等log资料进行精确搜索，快速找出符合特定文本模板的资料列，“这是媲美在草丛中找针的精准搜索能力。”Brian Welcker这样比喻。

关键升级4：可视化SQL调试和优化工具

SQL查询是BigQuery最大卖点，但要从复杂的SQL指令来了解执行指令的运行情况和性能瓶颈，对DBA来说是一大挑战，GCP这次大会中，也发布了一款SQL查询调试工具Query Inspetor预览版，可以用可视化方式来调试、解决SQL查询指令的性能问题，例如产生查询指令的运行流程图，来了解不同查询任务之间的资料流向，来找出影响性能的瓶颈。

“这是用来管理所有查询、诊断、比较同类查询和优化查询的一站式工具。”Brian Welcker补充。

另外，过去在Google Workspace商用付费版本才提供的Connected sheets功能，可以用Google Sheets试算表直接连接BigQuery，来读取资料进行分析，现在变成了免费功能，个人版也能连接BigQuery，以分析人员或业务人员熟悉的操作接口，来访问BigQuery上的分析报表和数据。

SQL查询调试工具Query Inspetor预览版，可以用可视化方式来调试、解决SQL查询指令的性能问题。图片来源／GCP

关键升级5：将GCP全套MLOps工具带来BigQuery

BigQuery早在2018年就内置集成了机器学习功能推出BigQuery ML，可以用标准SQL查询指令，在BigQuery中训练ML模型，虽然在这次Next大会上，没有太多更新，但是，这次也推出了一个杀手级的连接机制，可以将BigQuery ML的模型，集成到Vertex AI平台的模型存储库。

Vertex AI是Google去年推出的全托管式机器学习平台，将一系列Google内部所用的机器学习工具和框架，组合成了一套AI训练服务平台，也包括了一系列的MLOps工具，涵盖了训练资料管理、ML训练、雏形开发、实验、模型部署，甚至是模型解释，以及模型上线后的监控，可以提供端到端到运维的完整ML应用生命周期管理。

例如提供了像Vertex Model Monitoring、ML Metadata与Pipelines这些MLOps工具，可以用来创建自助式的ML模型，以及提高重复利用率。BigQuery ML添加了一项与Vertex AI模型存储库的连接机制，可以将BigQuery ML训练出来的模型，自动注册到这个存储库，来进行管理、关注、版本管控，甚至可以存储BigQuery ML模型的元数据和各种runtime依赖性作为日后重复部署之用。

不只如此，创建连接之后，还能将BigQuery ML的模型，集成到Vertex AI模型评估和部署机制上，来进行脱机评估或上线的关注，也可以统一管理在BigQuery的机器学习模型发布流程，从模型审查、核准、发布甚至是到退版都能管理。换句话说，虽然只是ML存储库的连接，但这一步等于将Vertex AI的全套企业级MLOps管理平台，带来了BigQuery数据仓库。

关键升级6：同一套SQL支持更多种类分析任务

使用SQL指令来完成各种分析任务是BigQuery最大的卖点，Google也不断扩展SQL指令可以完成的任务，一方面，除了强化BigQuery机器学习开发流程之外，GCP在几年前所并购的ETL资料处理工具Dataform，现在终于整合到BigQuery产品线中，推出了新的预览版，可以提供一个类SQL的语言称为SQL X来撰写各种资料转换工作流程，管理各种不同的ETL资料处理流程，也能搭配GitHub进行版本管控，引进软件开发流程来强化资料分析团队的协作，这个产品可以强化BigQuery资料前处理能力。

在强化查询指令的功能上，BigQuery SQL也开始支持Spark流媒体分析运算，可以将Spark程序写成Store Procedure，然后直接在BigQuery中执行Spark的任务，也能套用同样的安全和治理政策，例如套用GCP IAM权限，或是套用与BigQuery上同样的精细权限管控（栏或列）设置等。

在结构化资料当道的时候，BigQuery曾经被誉为最强的大数据分析工具之一，但随着AI技术成熟，各种非结构资料暴增，非结构化资料成了企业分析需求的大宗，各家云计算存储服务、资料湖和数据仓库系统也纷纷跟进，形成多家竞逐，各有擅长的态势。

GCP今年开始大力押宝BigQuery，BigQuery在推出11年之后，终于跨入了非结构化资料场景，后发能否再度抢下头名，这正是GCP新资料战略接下来的考验。

新策略抢攻SRE、SecOps和NetOps运维大数据需求

在今年Next大会上，BigQuery除了大规模翻新产品功能之外，在产品推广策略上，也锁定了企业最常见的大数据分析应用场景，就是运维大数据分析需求。

Google Cloud产品经理Christopher Crosbie指出，今年特别要瞄准企业三大运维场景的Log分析需求，一种是DevOps和SRE场景，想要观察和了解各种AP的行为，加快调试速度来缩短系统宕机的恢复时间（MTTR），第二种是SecOps场景，企业想要从庞大安全Log中，更容易调查与安全相关的攻击事件资料。最后一类是IT网络运维（NetOps），需要集成各方资料来提供更完善的网络洞察。

但是，企业要处理的Log资料需求和类型非常多样，常会运用不同的Log分析系统，来处理上述不同类型的需求。但是Christopher Crosbie指出，Log系统越多套，会衍生不少问题，例如，资料经过越多系统，到达最终系统会产生延迟问题，其次，不同系统或处理机制对资料可能有不同的转换处理，会导致缺乏清楚的单一资料正确来源，当要套用ML训练时，要集成多套数据源的串联，容易导致ML流程的断裂，对运维团队而言，也得经常在不同系统间切换和转移资料，更增加工作流程的复杂。

BigQuery在迈向通吃各类资料和各种分析需求的大战略之下，也想要成为通吃不同类型Log分析需求的单一大数据平台，早在1年前，GCP先推出了Stroage Wirte API，可以快速将各类Log数据源写入到BigQuery中，GCP宣称可以达到每秒100万笔写入操作，也不会影响查询性能。

在今年Next大会，Google Cloud产品总监Brian Welcker就表明，BigQuery要推出Log大数据分析，除了原本的Stroage Wirte API之外，再加上了原生JSON资料类型支持正式GA，也新推出了庞大资料的搜索索引功能。

Christopher Crosbie表示，不只可以支持从多种资料类型批次转换成JSON，也可以跟Dataflow、JDBC、Biglake Tables集成，将SQL查询结果快速输出成JSON来提供他用。而搜索索引则不需要知道原本的数据结构，也能搜索结构化或非结构化的独特资料，也提供时序性资料的最近几笔查询条件的优化，例如最近30笔，可以用于Log分析常用最新变化查询之用。

Google还在自家Cloud Logging服务下，用BigQuery打造了一个新的Log分析预览版，可以用来汇集整理来自各种云计算环境的Log分析，可以利用SQL语法来处理和分析这些云计算Log。