基础设施监控是跟踪、分析和管理企业技术堆栈后端组件的性能、可用性和运行状况的过程。
基础设施监控是跟踪、分析和管理企业技术堆栈后端组件的性能、可用性和运行状况的过程。从内存芯片和处理器到操作系统 (OS) 和应用程序服务器的每个组件都在向最终用户提供应用程序或服务方面都发挥着至关重要的作用,并且可以跨云、本地和混合环境存在。监控这些系统的必要性在于应用程序停机和服务降级会导致用户流失、重大收入损失以及企业声誉受损。
基础设施监控要求使用专门工具,自动收集、聚合和分析来自服务器、虚拟机、容器、数据库和其他后端组件的数据和指标。基础设施监控工具涵盖广泛的参数,例如 CPU 和内存使用情况、网络流量、磁盘空间、响应时间、错误率等。当超过预定义的阈值或检测到异常时,这些工具会生成警报或通知,从而使 IT 团队在潜在问题升级之前加以调查并解决。基础设施监控的最终目标是确保 IT 基础设施可靠、安全、高效的运行。
多年来,在技术进步和不断变化的业务需求推动下,基础设施监控取得了显著发展。最初,基础设施监控主要关注数据中心的硬件组件,例如服务器和网络设备。这些静态组件相对容易监控。
随着 AWS、Microsoft Azure 和 Google Cloud 等云平台的采用,基础设施监控已扩展到涵盖虚拟化环境、云基础设施、容器、微服务、Kubernetes 和其他现代技术。除能够监控临时基础设施组件之外,当今的基础设施监控软件还必须整合自动化、人工智能、实时监控、端到端可见性、可扩展性、灵活性、DevOps 集成、可视化、分析和内置安全功能。
获得对后端组件运行状况的出色可见性,促进快速查明并解决问题
订阅 IBM 时事通讯
基础设施监控的工作原理是持续从组织 IT 基础设施的各种传统和云原生组件收集数据,并分析该数据以评估系统的性能、可用性和运行状况。
收集系统数据的两种方法为代理型和无代理型。
代理是工程师在主机(任何需要监控的系统或设备)上安装的轻量级软件层,收集有关系统状态的相关遥测数据。在主机上安装代理的过程称为“仪器化”。借助当今领先的基础设施监控解决方案,经过配置的代理能够使用传感器发现基础设施堆栈上下的组件。
一旦所有监控对象完全仪器化,每个代理就开始收集反映基础设施行为和状态的各种指标和测量结果。这些指标包括 CPU 和内存利用率、网络带宽、磁盘空间使用情况、响应时间、错误率、事务计数等。理想情况下,性能监控平台以 1 秒的间隔连续实时捕获数据,而不进行采样。代理型数据收集的主要优点就是这种细粒度,可以更轻松地识别和解决出现的问题。
基于代理的数据收集还可以实现主动监控。通过设置阈值,当 CPU 利用率等超过一定比例时触发警报,管理员可以提前发现潜在的性能问题。警报可以通过电子邮件、短信发送或集成到 Slack 或 PagerDuty 等通知系统。
代理的主要优势是数据收集更加丰富。此外,诊断和问题修复等工作可以自动进行。劣势是,代理会消耗 CPU 周期、内存和网络带宽等系统资源来收集和传输监控数据。如果监控是资源密集型的或者系统资源有限,这可能会对系统性能产生轻微影响。
与代理型收集不同,无代理方法不需要在主机上安装单独的软件代理。它依靠 Windows Management Instrumentation (WMI)、简单网络管理协议 (SNMP)、Secure Shell (SSH) 协议和 NetFlow 等内置协议收集系统数据并将其传输到基础设施监控解决方案。通常,对于路由器、交换机和负载均衡器等无法安装代理的专用硬件而言,无代理监控是唯一选择。它还适合可用资源有限的旧版系统和设备。
无代理收集的优势在于只要支持所需的协议或 API,就可以跨不同的操作系统和平台工作,因此在异构环境中更加灵活。
无代理还可以减少对性能的影响。由于无代理监控不需要在各个系统上运行软件代理,因此不会对受监控系统产生额外的资源消耗或性能影响。
无代理监控功能依赖于通过网络协议或 API 公开的数据。因此,与基于代理的收集相比,可用数据或许有限,因为并非所有系统级指标或特定于应用程序的数据都可以通过这些方法访问。此外,无代理方法在很大程度上依赖于网络,如果网络掉线,很可能会失败。
在当今复杂的现代架构中,同时使用代理和无代理收集方法。领先的基础设施监控解决方案可以集中管理代理和无代理收集方法。
基础设施监控服务于不同行业和组织的各种用例。以下是一些常见的基础设施监控方式:
这些只是如何利用基础设施监控的几个示例。理想的用例将根据行业、组织规模以及受监控系统对业务运营的重要性而有所不同。
基础设施监控服务于不同行业和组织的各种用例。以下是一些常见的基础设施监控方式:
基础设施监控可以跟踪关键性能指标,确定待改进领域,例如优化 CPU 或内存使用率、识别网络拥塞情况或调整数据库查询以提高性能。
通过实时监控基础设施组件,组织可以在问题影响最终用户或导致服务中断之前主动发现问题。警报和通知还可以帮助 IT 团队在潜在的基础设施问题升级为严重事件之前发现并解决这些问题。
组织通过监控一段时间内的基础设施指标,能够分析使用模式、预测未来的资源需求并规划容量扩展。这有助于识别未充分利用或过度利用的资源,预测增长并作出明智的扩展决策。
基础设施监控有助于识别故障以及系统故障或性能下降的根本原因。IT 团队通过分析指标和日志,可以查明根本问题,无论是硬件故障、软件配置错误、网络中断还是应用程序错误。
基础设施监控通过跟踪和报告关键绩效指标 (KPI) 来帮助组织满足服务级别协议 (SLA) 要求。监控运行时间、响应时间和可用性等指标可以提供必要的数据,以确保符合 SLA 并证明 IT 服务的可靠性。
监控基础设施资源和使用情况使组织能够优化资源分配,发现闲置或未充分利用的资源,并就资源配置做出明智决策。这种优化可以通过避免不必要的资源支出或调整基础设施部署规模来帮助降低成本。
基础设施监控有助于检测安全事件并确保遵守安全政策。通过监控系统日志、网络流量和安全事件,企业可以识别可疑活动、潜在违规行为或漏洞,并及时采取措施降低安全风险。
这些只是如何利用基础设施监控的几个示例。理想的用例将根据行业、组织规模以及受监控系统对业务运营的重要性而有所不同。
无论业务需求如何,您都可以遵循一些最佳实践,充分利用对基础设施监控解决方案的投资。
通过遵循这些最佳实践,组织可以建立强大而有效的基础设施监控框架。该框架提供切实可行的见解、主动解决问题并有助于其 IT 系统的整体稳定性和性能。