GKE提供K8s控制平面指标供用户更全面掌控集群运行状态

Google在其Kubernetes服务GKE提供用户更多的遥测资料,加入Kubernetes控制平面指标,这些指标将有助于Kubernetes服务在发生故障时,更快速地排除故障,官方提到,这些控制平面与监控服务Cloud Monitoring集成,用户不需要额外收集指标或是抓取配置。

Kubernetes控制平面指标可以用来监控API服务器,关注API服务器的负载、回传错误的请求比例,以及请求的回应延迟等状况,官方也提到,apiserver_storage_objects指标也对于监控API服务器的负载程度很有用,特别是用户使用自定义控制器,可以按资源标签细分指标,找出存在问题的Kubernetes自定义资源或是控制器。

另外,Kubernetes控制平面指标也可以协助用户了解集群运行状况。Pod在创建之后,会处于Pending的状态,在健康的集群中,处于Pending的Pod能够相对快速的被调度到节点上,进而提供执行工作负载需要的资源,Google提到,当Pending的Pod数量持续增加时,可能代表Pod调度发生问题,原因有可能是资源不足,或是配置不当造成。

Kubernetes控制平面中的数个指标,可以供用户注意潜在的调度问题,因此用户便能即时采取行动,确保Pod有足够的资源可以使用。这些额外的Kubernetes控制平面指标,也会显示在云计算控制台Kubernetes Engine的部分,方便用户在同一脉络中识别以及调查存在的问题,更简单地管理GKE集群。

在GKE集群激活Kubernetes控制平面指标功能后,所有指标皆以Google Cloud Managed Service for Prometheus收集,因此指标会发送到和Kubernetes集群同一个GCP项目的Cloud Monitoring,用户可以借由Cloud Monitoring API和Metrics Explorer,以PromQL进行查询。

当用户使用第三方可观察性工具监控GKE集群,则这些可观察性工具也能够借由Cloud Monitoring API,截取这些Kubernetes控制平面指标。