Google改善可视化工具方便Compute Engine用户调试

Google推出强化上下文（In-Context）的UI工具集，供用户更快速地对Compute Engine进行调试，借由各种指标、图表和可视化功能，能够助用户分析指标和网络变化，并且找出适合的磁盘大小，甚至是调整和测量内存性能等。

Google提到，要对虚拟机在生产环境进行调试，过程可能很复杂，因为不只需要多个基础设施的资料点和信号，还需要来自应用程序的指标。所以当用户遭遇延迟、停机和错误等情况时，便需要在不同的工具和UI间切换，来探索造成问题的根本原因，但这个过程可能拖慢调试速度。

过去Google在Compute Engine控制台提供一组高端指标，来简化虚拟机调试，虽然如此，用户仍需要在不同工具之间切换查看，才能对问题进行根本原因分析，官方举例，当CPU使用率在特定时间到达峰值，这可能是一个有用的分析起点，但是要解决问题，就必需要深入了解造成该问题的原因，而这会需要与程序相关的许多资料和信号。

为了解决这个问题，Google在Compute Engine页面添加了指标、图表和各种新的可视化功能，其中部分添加的功能，则是来自Google云计算Ops代理所产生的深度指标，而Ops代理能够通过Terraform、Puppet、Ansible和安装脚本简单地安装。由Ops代理所提供的新图表，包括来自操作系统报告的CPU使用率、内存使用率，和由用户造成的内存故障，还能显示像是核心、磁盘缓存、I/O延迟和程序指标等信息。

虽然难以提供单一故障排除流程，一次满足所有场景需求，但Google表示，这套经强化的可观察性工具，能够让用户更主动迅速地处理多种场景。像是当用户从指标和日志识别出网络变化，无论是意外的网络流量增加、网络资料封包大小或是网络连接的峰值，用户可以借由日志工具，来快速过滤并找到关键的日志记录，并且利用日志资源管理器中的深度连接，在Compute Engine和Cloud Logging服务之间快速无缝切换浏览。

另外，用户也能够从磁盘监控工具中，发现在高负载的情况下，例如当每秒IOPS峰值（Peak 1-second IOPS）图表上的数值线段呈现水平，则可能代表磁盘性能受限制，如果此时I/O延迟平均也相对应的增加，就能够确定I/O遭到限制，根据这些信息，用户可找出负责大部分IOPS的磁盘类型，并且增加磁盘容量，来提高存储性能限制。

新的UI工具集也能用来测量和调整内存性能，Google提到，大多数虚拟机系列都需要Ops代理来收集内存使用率，通过检查Top程序的内存使用，开发人员就能侦测内存泄露，进行重新分配或是终止违规程序。运营人员也能够借由按分类查看内存细节，来发现应用程序使用内存的状况，选择更适合的虚拟机类型。