主页 topics Observability 什么是可观察性?
探索 IBM 的可观测性解决方案 订阅 AI 主题最新消息
包含齿轮、机械臂、手机象形图的拼贴插图
什么是可观察性?

可观测性是指仅根据复杂系统外部输出的知识来理解其内部状态或条件的程度。系统的可观测性越高,您就可以根据已识别的性能问题更快速、更准确地定位到其根本原因,而无需进行额外的测试或编码。

可观测性提供了对现代分布式应用程序的深度可见性,可以加速问题的自动识别和解决。

在 IT 和云计算领域,可观测性涉及使用软件工具和实践。这些工具用于聚合、关联和分析来自分布式应用程序及其运行的硬件和网络的稳定性能数据流。此过程有助于有效监控、排除故障和调试应用程序和网络。其目标是满足客户体验期望、服务级别协议 (SLA) 和其他业务要求。

可观测性是一个相对较新的 IT 主题,经常被误认为是过度炒作的流行词,或者是系统监控、应用程序性能监控 (APM)网络性能管理 (NPM) 的“另一种说法”。事实上,可观测性是 APM 和 NPM 数据收集方法的自然演变,它能更好地适应云原生应用程序部署日益加快、分布式和动态的本质。可观测性并不会取代监控,但可以完善监控以及 APM 和 NPM。

“可观测性”一词源于控制理论,这是一个与动态系统自动化控制相关的工程领域。例如,根据系统反馈来调节流经管道的水流,或者控制汽车上下坡时的速度。

剖析有关可观察性的常见理解误区

这本电子书旨在破除有关可观测性的误解,并展示其在数字世界中的作用。

相关内容

注册获取可观测性企业指南

为什么需要可观测性?

在过去约 20 年的时间里,IT 团队主要依靠 APM 来监控应用程序并执行故障诊断。APM 会定期采样并汇总已知与应用程序性能问题相关的应用程序和系统数据(即遥测数据)。

APM 可分析与关键绩效指标 (KPI) 相关的遥测数据,并将结果汇总到仪表板中。这些结果可提醒运营和支持团队注意异常情况,从而解决或预防问题。

APM足以有效监控单一应用程序或传统分布式应用程序,并进行故障诊断。这类应用程序会定期发布新代码,而且应用程序组件、服务器和相关资源之间的工作流程和依赖关系十分明确或易于跟踪。

如今,企业正在迅速采用现代化开发实践。这包括敏捷开发、持续集成持续部署 (CI/CD)、DevOps、多种编程语言。

企业也在采用云原生技术,如微服务Docker 容器、Kubernetes无服务器功能。因此,这些企业正以前所未有的速度将更多服务推向市场。但在此过程中,他们也在部署新的应用程序组件。他们在许多地方使用不同的语言、在截然不同的时间段(甚至是几秒或几分之一秒)内执行无服务器功能。APM 的每分钟一次的数据采样无法跟上这一步伐。

企业需要的是更多更高质量的遥测数据,可针对每个应用程序用户的请求或事务创建高精确度、上下文丰富且完全相关的记录。于是,可观测性闪亮登场。

可观测性如何工作?

可观测性平台通过集成应用程序和基础架构组件内置的现有检测功能,并提供各种工具来为这些组件添加检测功能,以便持续发现和收集性能遥测数据。可观测性侧重于四种主要遥测数据类型:

  • 日志。日志是应用程序事件的记录,其特点是粒度细、带时间戳、完整且不可改变。除其他事项外,日志可用于创建每个事件的高精度毫秒级记录,并以相关的上下文信息作为补充。开发人员可以使用这些日志进行“回放”,以便进行故障排除和调试。
  • 指标。指标(有时称为时间序列指标)是衡量给定时间段内应用程序和系统健康状况的基本指标。例如,例如应用程序在 5 分钟内使用了多少内存或 CPU 运算能力,或者应用程序在使用高峰期间经历了多少延迟
  • 跟踪。跟踪会记录每个用户请求的端到端“旅程”,即从 UI 或移动应用程序开始,经过整个分布式架构,再返回到用户的过程。
  • 依赖关系(也称为依赖关系映射)反映了每个应用程序组件如何依赖其他组件、应用程序和 IT 资源。

收集这些遥测数据之后,平台会对其进行实时关联。此流程为 DevOps 团队、站点可靠性工程 (SRE) 团队和 IT 人员提供了完整的上下文信息。团队了解任何可能指示、导致或用于解决应用程序性能问题的事件的相关内容、位置和原因。

许多可观测性平台会自动发现系统中可能出现的新遥测数据源,例如对另一个软件应用程序的新 API 调用。这些平台可以处理的数据要超过标准 APM 解决方案。许多平台均包含 AIOps(适用于操作的人工智能)功能,可以从噪声(与问题无关的数据)中筛选出信号和实际问题的迹象。

 

可观测性的优势

与可观测性较差的系统相比,可观测性强的系统更容易理解(总体上和细节上)和进行监控,也能够更容易且更安全地更新新代码,且更容易修复。具体来说,可观测性直接支持敏捷/DevOps/SRE 目标,可以更快地交付更高质量的软件,让企业能够:

  • 发现并解决“未确认的未知问题”,即企业未确认其存在的问题。监控工具的一个主要限制在于:它们只监视“已确认的未知问题”,即您已确认需要监视的异常情况。可观测性能够发现企业可能从未确认或想过需要监视的情况,然后跟踪它们与特定性能问题的关系,并提供上下文信息以识别根本原因,从而加快解决问题的速度。
  • 在开发早期发现并解决问题。可观测性可在软件开发流程的早期阶段融合监控功能。DevOps 团队可快速识别并修复新代码中的问题,以免影响客户体验或 SLA。
  • 自动扩展可观测性。例如,企业可在 Kubernetes 集群配置中指定检测和数据汇总,并从集群启动时开始收集遥测数据,直至集群关闭。
  • 启用自动补救和自我复原应用程序基础架构。通过将可观测性与 AIOps 机器学习和自动化功能相结合,可根据系统输出来预测问题,并在无需管理干预的情况下解决问题。
相关解决方案
Observability with IBM Instana™

探索面向混合云的领先企业可观测性平台。

探索 Observability with Instana
IBM® Cloud Logs

通过主动日志可观测性来改善任何地方的基础设施和应用程序性能,同时优化 IBM Cloud 内外可观测性基础设施的总体拥有成本。

探索下一代云日志记录
IBM Cloud Monitoring

使用 IBM Cloud Monitoring 在 IBM Cloud 基础架构内外监控您的基础架构、云服务和应用程序,并对其进行故障排查。

深入了解 IBM Cloud Monitoring
AI 驱动的自动化操作

从业务工作流程到 IT 运营,了解我们如何能为您提供由 AI 驱动的自动化服务。

探索人工智能驱动的自动化
IBM Cloud Pak for Watson AIOps

了解 IT 运营管理解决方案 IBM Cloud Pak for Watson AIOps 如何能支持 IT 运营商在其 ITOps 工具链的核心位置植入 AI。

探索 IBM Cloud Pak for Watson AIOps
IBM SevOne Network Performance Management

借助以应用程序为中心的网络可观测性,深入洞察并采取行动,从而优化 IT 运营。

探索 IBM SevOne Network Performance Management
借助 IBM Turbonomic 管理应用程序资源

利用可观测性主动优化应用程序资源、保障性能并节省资金。

探索 IBM Turbonomic
资源 可观察性企业指南

浏览这份入门指南,了解什么是可观测性,以及如何三步轻松踏上企业可观测性的旅程。

可观测性与监控:有什么区别?

阅读了解监控和可观测性如何能帮助您识别问题的根本原因 - 它们有何相同和不同之处?

开发人员需要知晓的有关可观测性的知识

通过这本电子书探索新世界。我们将摒弃对监控的一切负面印象,向着可观测性世界迈出第一步,并深入了解其对开发人员日益重要的方面。

IBM 的可观测性和 AI 运营解决方案:如何整合并解决事件

深入了解 IBM 在 AIOps 领域的三个协同解决方案:IBM Observability by Instana APM、Turbonomic Application Resource Management for IBM Cloud Paks 和 IBM Cloud Pak for Watson AIOps。

采取后续步骤

IBM Instana 提供人人都能使用的实时可观察性。它可以快速实现价值,同时确保您的可观察性策略能够跟上当今和未来环境的动态复杂性。从移动设备到大型机,Instana 支持超过 250 种技术,并且还在不断增加。

探索 IBM Instana 预约实时演示