Databricks推出SQL Analytics解决方案

Databricks发布新的资料查询解决方案SQL Analytics,用户可以直接在资料湖上,执行商业智能和SQL工作负载。SQL Analytics提供专用SQL原生工做空间,以及商业智能工具连接器,让用户可以使用SQL或是既有商业智能工具,对资料湖超大量资料进行查询。Databricks提到,SQL Analytics应用湖边小屋(Lakehouse)架构,集结了数据仓库的性能以及资料湖的效益,提供比传统数据仓库高9倍的性价比。

过去企业为了解决资料孤岛的问题,便开始将关系型数据库的资料,移动到数据仓库中,以进行商业智能等分析,由于数据仓库没办法处理像是源文件案、图片、音频、图像、自然语言资料以及超大规模结构化资料,因此又在大约10年前,出现资料湖的概念。Databricks提到,由于云计算服务的发展,现在云计算存储便宜且耐久性又高,不少企业把资料科学和机器学习应用,构建在云计算上,但是传统资料分析的需求还在,所以只好同时维护两份资料副本。

同时维护两份资料,会遭遇资料同步的挑战,资料分析师和业务团队仅能访问,经整理过后放进数据仓库中的资料,无法使用资料湖中最新的资料。因此Databricks引进了湖边小屋的概念,以结合资料湖和数据仓库。湖边小屋是一种平台架构,通过实例类似数据仓库的数据结构以及资料管理,并将其用于低成本的资料湖上。

SQL Analytics构建在湖边小屋架构之上,让用户可以在多云湖边小屋基础架构,执行商业智能和SQL工作负载。SQL Analytics两个重要的部分为SQL原生工作区,以及商业智能工具连接器,SQL原生工作区可让用户利用SQL,来查询资料湖泊中的Delta Lake表格,因此资料分析人员和资料科学家,都可以操作相同的资料源。Delta Lake是在资料湖中,可提供ACID交易的存储层。

SQL原生工作区可让分析人员浏览资料架构(Schema),并且将常用的程序代码,存储成为程序代码片段,以便之后快速重新使用,同时工作区也能缓存查询结果,以便缩短后续执行时间,分析人员还可以可视化呈现资料,并将可视化图表放到仪表板中,并与其他团队成员分享。

对于许多已经在使用商业智能工具的用户,SQL Analytics也提供连接器,可与商业智能工具相连接,Databricks已与500多家供应商合作,包括TableauPower BI和Looker等,都能够集成SQL Analytics一起使用。

Databricks提到,SQL Analytics的查询性能快速,是因为他们解决了查询吞吐量,与多用户支持两个问题,SQL Analytics使用多态查询执行引擎Delta Engine,能够有效提高资料查询性能,其查询执行时间,甚至可比Apache Spark 3.0快10倍。另外,资料湖在多用户数量同时访问时,会面临性能低落的情况,因此SQL Analytics加入了优化运算集群,可以根据查询的用户,扩展需要的资源。

发表评论