基础设施监控是什么？

基础设施监控是跟踪、分析和管理企业技术堆栈后端组件的性能、可用性和运行状况的过程。

基础设施监控是跟踪、分析和管理企业技术堆栈后端组件的性能、可用性和运行状况的过程。从内存芯片和处理器到操作系统 (OS) 和应用程序服务器的每个组件都在向最终用户提供应用程序或服务方面都发挥着至关重要的作用，并且可以跨云、本地和混合环境存在。监控这些系统的必要性在于应用程序停机和服务降级会导致用户流失、重大收入损失以及企业声誉受损。

基础设施监控要求使用专门工具，自动收集、聚合和分析来自服务器、虚拟机、容器、数据库和其他后端组件的数据和指标。基础设施监控工具涵盖广泛的参数，例如 CPU 和内存使用情况、网络流量、磁盘空间、响应时间、错误率等。当超过预定义的阈值或检测到异常时，这些工具会生成警报或通知，从而使 IT 团队在潜在问题升级之前加以调查并解决。基础设施监控的最终目标是确保 IT 基础设施可靠、安全、高效的运行。

传统与当代基础设施监控

多年来，在技术进步和不断变化的业务需求推动下，基础设施监控取得了显著发展。最初，基础设施监控主要关注数据中心的硬件组件，例如服务器和网络设备。这些静态组件相对容易监控。

随着 AWS、Microsoft Azure 和 Google Cloud 等云平台的采用，基础设施监控已扩展到涵盖虚拟化环境、云基础设施、容器、微服务、Kubernetes 和其他现代技术。除能够监控临时基础设施组件之外，当今的基础设施监控软件还必须整合自动化、人工智能、实时监控、端到端可见性、可扩展性、灵活性、DevOps 集成、可视化、分析和内置安全功能。

立即尝试 IBM Instana Observability

获得对后端组件运行状况的出色可见性，促进快速查明并解决问题

基于代理程序的监控

代理是工程师在主机（任何需要监控的系统或设备）上安装的轻量级软件层，收集有关系统状态的相关遥测数据。在主机上安装代理的过程称为“仪器化”。借助当今领先的基础设施监控解决方案，经过配置的代理能够使用传感器发现基础设施堆栈上下的组件。

一旦所有监控对象完全仪器化，每个代理就开始收集反映基础设施行为和状态的各种指标和测量结果。这些指标包括 CPU 和内存利用率、网络带宽、磁盘空间使用情况、响应时间、错误率、事务计数等。理想情况下，性能监控平台以 1 秒的间隔连续实时捕获数据，而不进行采样。代理型数据收集的主要优点就是这种细粒度，可以更轻松地识别和解决出现的问题。

基于代理的数据收集还可以实现主动监控。通过设置阈值，当 CPU 利用率等超过一定比例时触发警报，管理员可以提前发现潜在的性能问题。警报可以通过电子邮件、短信发送或集成到 Slack 或 PagerDuty 等通知系统。

代理的主要优势是数据收集更加丰富。此外，诊断和问题修复等工作可以自动进行。劣势是，代理会消耗 CPU 周期、内存和网络带宽等系统资源来收集和传输监控数据。如果监控是资源密集型的或者系统资源有限，这可能会对系统性能产生轻微影响。

无代理监控

与代理型收集不同，无代理方法不需要在主机上安装单独的软件代理。它依靠 Windows Management Instrumentation (WMI)、简单网络管理协议 (SNMP)、Secure Shell (SSH) 协议和 NetFlow 等内置协议收集系统数据并将其传输到基础设施监控解决方案。通常，对于路由器、交换机和负载均衡器等无法安装代理的专用硬件而言，无代理监控是唯一选择。它还适合可用资源有限的旧版系统和设备。

无代理收集的优势在于只要支持所需的协议或 API，就可以跨不同的操作系统和平台工作，因此在异构环境中更加灵活。

无代理还可以减少对性能的影响。由于无代理监控不需要在各个系统上运行软件代理，因此不会对受监控系统产生额外的资源消耗或性能影响。

无代理监控功能依赖于通过网络协议或 API 公开的数据。因此，与基于代理的收集相比，可用数据或许有限，因为并非所有系统级指标或特定于应用程序的数据都可以通过这些方法访问。此外，无代理方法在很大程度上依赖于网络，如果网络掉线，很可能会失败。

在当今复杂的现代架构中，同时使用代理和无代理收集方法。领先的基础设施监控解决方案可以集中管理代理和无代理收集方法。

应该监控基础设施的哪些部分？

基础设施监控服务于不同行业和组织的各种用例。以下是一些常见的基础设施监控方式：

性能优化：基础设施监控可以跟踪关键性能指标，确定待改进领域，例如优化 CPU 或内存使用率、识别网络拥塞情况或调整数据库查询以提高性能。
主动问题检测：通过实时监控基础设施组件，组织可以在问题影响最终用户或导致服务中断之前主动发现问题。警报和通知还可以帮助 IT 团队在潜在的基础设施问题升级为严重事件之前发现并解决这些问题，从而使其成为 IT 工作流程的重要组成部分。
容量规划和可扩展性：组织通过监控一段时间内的基础设施指标，能够分析使用模式、预测未来的资源需求并规划容量扩展。这有助于识别未充分利用或过度利用的资源，从而更有效地进行工作量分配。
故障识别和根本原因分析：基础设施监控有助于识别故障以及系统故障或性能下降的根本原因。IT 团队通过分析指标和日志，可以查明根本问题，无论是硬件故障、软件配置错误、网络中断还是应用程序错误。
SLA 符合性：基础设施监控通过跟踪和报告关键绩效指标 (KPI) 来帮助组织满足服务级别协议 (SLA) 要求。监控运行时间、响应时间和可用性等指标可以提供必要的数据，确保符合 SLA 并证明 IT 服务的可靠性。
容量优化和成本管理：监控基础设施资源和使用情况能协助组织优化资源分配，识别闲置或未充分利用的资源，并作出明智的资源配置决策。这种优化可以通过避免不必要的资源支出或调整基础设施部署规模来帮助降低成本。
安全监控：基础设施监控有助于检测安全事件并确保遵守安全政策。通过监控系统日志、网络流量和安全事件，企业可以识别可疑活动、潜在违规行为或漏洞，并及时采取措施降低安全风险。

这些只是如何利用基础设施监控的几个示例。理想的用例将根据行业、组织规模以及受监控系统对业务运营的重要性而有所不同。

基础设施监控用例

基础设施监控服务于不同行业和组织的各种用例。以下是一些常见的基础设施监控方式：

性能优化

基础设施监控可以跟踪关键性能指标，确定待改进领域，例如优化 CPU 或内存使用率、识别网络拥塞情况或调整数据库查询以提高性能。

主动问题检测

通过实时监控基础设施组件，组织可以在问题影响最终用户或导致服务中断之前主动发现问题。警报和通知还可以帮助 IT 团队在潜在的基础设施问题升级为严重事件之前发现并解决这些问题。

容量规划和可扩展性

组织通过监控一段时间内的基础设施指标，能够分析使用模式、预测未来的资源需求并规划容量扩展。这有助于识别未充分利用或过度利用的资源，预测增长并作出明智的扩展决策。

故障识别和根本原因分析

基础设施监控有助于识别故障以及系统故障或性能下降的根本原因。IT 团队通过分析指标和日志，可以查明根本问题，无论是硬件故障、软件配置错误、网络中断还是应用程序错误。

SLA 合规性

基础设施监控通过跟踪和报告关键绩效指标 (KPI) 来帮助组织满足服务级别协议 (SLA) 要求。监控运行时间、响应时间和可用性等指标可以提供必要的数据，以确保符合 SLA 并证明 IT 服务的可靠性。

容量优化和成本管理

监控基础设施资源和使用情况使组织能够优化资源分配，发现闲置或未充分利用的资源，并就资源配置做出明智决策。这种优化可以通过避免不必要的资源支出或调整基础设施部署规模来帮助降低成本。

安全监控

基础设施监控有助于检测安全事件并确保遵守安全政策。通过监控系统日志、网络流量和安全事件，企业可以识别可疑活动、潜在违规行为或漏洞，并及时采取措施降低安全风险。

这些只是如何利用基础设施监控的几个示例。理想的用例将根据行业、组织规模以及受监控系统对业务运营的重要性而有所不同。

基础设施监控最佳实践

无论业务需求如何，您都可以遵循一些最佳实践，充分利用对基础设施监控解决方案的投资。

建立和审查基线指标：在正常运行期间为基础设施组件建立基线性能指标和 KPI。基准和关键绩效指标为检测异常和偏离提供参考点。随着基础设施的发展，更新和调整基线，防止出现盲点。
配置全面警报：创建有意义、可操作且与当前特定问题相关的警报。通过设置适当的阈值和筛选出误报来避免产生警报噪音。确保警报提供足够信息，以便有效地诊断和解决问题。
整理通知并确定优先级：在配置监控解决方案以传送有关特定类型事件的通知时，应确定应优先考虑哪些类型的通知。服务器中断等影响用户体验的重大事件必须立马解决。
开展测试运行：等到真正发生紧急情况时再测试监控系统并非明智之举。安排对监控系统进行测试运行，确保一切正常。
设置角色专用仪表板：当今领先的基础设施监控解决方案可以根据每个用户的角色创建自定义配置的仪表板。毕竟，SecOps 团队成员关心的数据和警报与 CFO 相关的数据和警报差异巨大。
依靠供应商支持：如果您在配置和使用基础设施监控解决方案时遇到各种问题，请向供应商寻求支持。让他们的顾问、帮助中心和支持人员指导您排除故障以找到解决方案。

通过遵循这些最佳实践，组织可以建立强大而有效的基础设施监控框架。该框架提供切实可行的见解、主动解决问题并有助于其 IT 系统的整体稳定性和性能。

什么是基础设施监控？

传统与当代基础设施监控

基础设施监控的工作原理

基于代理程序的监控

无代理监控

应该监控基础设施的哪些部分？

基础设施监控用例

基础设施监控最佳实践

相关解决方案

相关资源