Confluent提供Apache Kafka资料永久留存服务

Confluent宣布即将在自家云计算平台加入新功能,在其Apache Kafka服务推出无限资料留存功能,现行Confluent所提供的Kafka单位(Confluent Unit for Kafka,CKU)具有资料存储限制,但在之后,无论是标准集群和专用集群,资料都将没有存储限制。在AWS上的Confluent Cloud服务可以在7月优先获得这项功能,其他云计算平台还需要再等等。

Kafka是由LinkedIn开发,并于2011年开源发布的分布式流媒体平台,在2014年时,LinkedIn员工离职创立了Confluent,提供企业级的Kafka服务。Apache Kafka可统一、高吞吐量且低延迟地处理即时资料,因此被企业广泛地用来存储应用程序的事件资料。

Kafka集群会存储自生产者(Producer)程序而来的资料,资料会被以不同的分割区和主题存储,需要资料的消费者(Consumer)程序,便可从集群的分割区查询资料,Kafka可以在一台或是多台服务器集群上运行,而且分割区还能够分散在跨集群节点上。

典型Kafka的设置是将资料留存数天到数周,但随着企业对于数字资料的需求,历史资料需要留存的时间也就越来越长。Confluent提到,由于现在数字体验对个性化的需求特别高,而企业为了要构建这些应用程序,需要以历史资料来预测即时事件,在考量庞大即时资料的存储成本以及使用复杂度,这对于现在的资料基础结构来说并不容易,事件资料通常在Kafka中保存7天,而这限制了事件流媒体资料的使用场景,没有足够久的历史资料,就无法进行逐年分析和预测性机器学习应用。

因此Confluent在其云计算Kafka服务,提供新的资料无限留存功能来解决这个问题,使企业可以创建资料中枢系统,连接内部所有的系统、SaaS以及微服务等端点,将资料全部存储到中枢系统中,Kafka中的事件资料会成为其他系统的单一事实来源,具扩展能力同时还可确保资料的完整性。

Confluent提到,因为在Kafka中,运算和存储能力被紧密地绑在一起,所以难以在流量上升时灵活地扩展,因此就无法大量地留存资料,而Confluent Cloud新提供的无限留存功能,使运算和存储容量脱钩,还能自动进行扩展,存储可随流量上升而扩展。在没有存储限制的情况下,企业就能将历史事件流媒体资料,应用到更多的案例上。

Confluent Cloud隔离新旧资料的读取,当应用程序读取历史资料时,不会影响其他读取新资料的应用程序,让集群中的即时和历史分析能够并存。

AWS上的Confluent Cloud用户在7月就可以开始使用资料无限留存功能,无限留存提供弹性可扩展的存储,Confluent提到,企业不用为预先配置的存储容量付费,仅就存储的资料量支付费用。使用其他云计算服务供应商的Confluent Cloud用户,在今年稍晚时候也将能使用新功能。