Google改善可视化工具方便Compute Engine用户调试

Google推出强化上下文(In-Context)的UI工具集,供用户更快速地对Compute Engine进行调试,借由各种指标、图表和可视化功能,能够助用户分析指标和网络变化,并且找出适合的磁盘大小,甚至是调整和测量内存性能等。

Google提到,要对虚拟机在生产环境进行调试,过程可能很复杂,因为不只需要多个基础设施的资料点和信号,还需要来自应用程序的指标。所以当用户遭遇延迟、停机和错误等情况时,便需要在不同的工具和UI间切换,来探索造成问题的根本原因,但这个过程可能拖慢调试速度。

过去Google在Compute Engine控制台提供一组高端指标,来简化虚拟机调试,虽然如此,用户仍需要在不同工具之间切换查看,才能对问题进行根本原因分析,官方举例,当CPU使用率在特定时间到达峰值,这可能是一个有用的分析起点,但是要解决问题,就必需要深入了解造成该问题的原因,而这会需要与程序相关的许多资料和信号。

为了解决这个问题,Google在Compute Engine页面添加了指标、图表和各种新的可视化功能,其中部分添加的功能,则是来自Google云计算Ops代理所产生的深度指标,而Ops代理能够通过Terraform、Puppet、Ansible和安装脚本简单地安装。由Ops代理所提供的新图表,包括来自操作系统报告的CPU使用率、内存使用率,和由用户造成的内存故障,还能显示像是核心、磁盘缓存、I/O延迟和程序指标等信息。

虽然难以提供单一故障排除流程,一次满足所有场景需求,但Google表示,这套经强化的可观察性工具,能够让用户更主动迅速地处理多种场景。像是当用户从指标和日志识别出网络变化,无论是意外的网络流量增加、网络资料封包大小或是网络连接的峰值,用户可以借由日志工具,来快速过滤并找到关键的日志记录,并且利用日志资源管理器中的深度连接,在Compute Engine和Cloud Logging服务之间快速无缝切换浏览。

另外,用户也能够从磁盘监控工具中,发现在高负载的情况下,例如当每秒IOPS峰值(Peak 1-second IOPS)图表上的数值线段呈现水平,则可能代表磁盘性能受限制,如果此时I/O延迟平均也相对应的增加,就能够确定I/O遭到限制,根据这些信息,用户可找出负责大部分IOPS的磁盘类型,并且增加磁盘容量,来提高存储性能限制。

新的UI工具集也能用来测量和调整内存性能,Google提到,大多数虚拟机系列都需要Ops代理来收集内存使用率,通过检查Top程序的内存使用,开发人员就能侦测内存泄露,进行重新分配或是终止违规程序。运营人员也能够借由按分类查看内存细节,来发现应用程序使用内存的状况,选择更适合的虚拟机类型。