IBM 直播网络研讨会—立即注册 APM 和可观测性的未来发展方向是什么?

什么是 AIOps?

在大型创意机构开会的商务人士

什么是 AIOps?

IT 运营人工智能 (AIOps) 是指应用人工智能 (AI) 功能(如自然语言处理机器学习模型)来自动化、简化和优化 IT 服务管理与运营工作流程。

AIOps 利用大数据、分析和 ML 功能来:

  • 在企业技术堆栈中采集和聚合由 IT 组件、应用程序需求和性能监控工具以及服务票证系统所生成的大量(且不断增加)的数据。
  • 从“噪声”中智能地转换出“信号”,以识别与应用程序性能和可用性问题相关的重要事件和模式。
  • 诊断根本原因,并将其报告给 IT 和 DevOps,以便实现快速事件响应和补救;或在某些情况下自动解决这些问题,而无需人工干预。

通过将独立的手动 IT 运营工具整合到一个智能、自动化的 IT 运营 (ITOps) 平台,AIOps 使 IT 运营团队能通过端到端的可见性和上下文快速(且通常是主动)响应缓慢与中断问题。

它可帮助企业弥合多样、动态且难以监控的 IT 环境与孤立的 IT 团队与用户对应用程序的性能和可用性的期望之间的差距。随着业务部门数字化转型计划的激增,很多专家将 AIOps 视为 IT 运营管理的未来。

AIOps 组件

AIOps 可整合一系列 AI 战略和功能,包括数据输出和聚合、算法、编排以及可视化。

算法可编纂 IT 专业知识、业务逻辑和目标,以便 AIOps 平台能对安全事件进行优先级排序并做出性能决策。算法构成了机器学习 (ML) 的基础,且可让平台建立基线并随着环境数据的变化而进行调整。

机器学习使用算法和技术(例如监督、无监督、强化和深度学习)来帮助系统从大型数据集中学习并适应新信息。在 AIOps,ML 有助于实现异常检测、根本原因分析 (RCA)、事件关联和预测分析。

AIOps 程序会从各种网络组件和数据源收集数据。分析功能会解读原始数据以创建新的数据和元数据,从而帮助系统和团队识别趋势、隔离问题、预测容量需求和管理事件。

AIOps 工具中的自动化功能有助于 AIOps 系统根据实时洞察分析采取行动。例如,预测分析可预测数据流量的增加,并触发自动化工作流程以按需分配额外的存储空间(与算法规则保持一致)。

AIOps 中的数据可视化工具可通过仪表板、报告和图形来呈现数据,以便 IT 团队监控变化并做出超出 AIOps 软件能力范围的决策。

辅以专家洞察分析的最新科技新闻

通过 Think 时事通讯,了解有关 AI、自动化、数据等方面最重要且最有趣的行业趋势。请参阅 IBM 隐私声明

谢谢!您已订阅。

您的订阅将以英语提供。每份时事通讯都包含取消订阅链接。您可以在此管理您的订阅或取消订阅。更多相关信息,请参阅我们的 IBM 隐私声明

智能运维 AIOps 是如何工作的?

AIOps 使用大数据平台将孤立的 ITOps 数据、团队和工具聚合到一处。此类数据可能包括:

  • 历史性能和事件数据
  • 实时运营事件
  • 系统日志和指标
  • 网络数据,包括包数据
  • 事件相关数据和开单
  • 应用程序需求数据
  • 基础架构数据

然后,AIOps 平台会将针对性的分析和 ML 工具用于:

  • 将重要事件警报与“噪声”分开。AIOps 可梳理 ITOps 数据并分离信号,以将异常事件与噪声(其他一切)区分开来,并识别数据模式。
  • 确定根本原因并提出解决方案。AIOps 可将异常事件与其他跨环境的事件数据关联起来,以找出停机或性能问题的原因并提出补救建议。
  • 自动响应,包括主动实时解决。AIOps 工具至少能自动将警报和推荐的解决方案传送到适当的 IT 团队,甚至还可根据问题的性质和解决方案创建响应团队。很多情况下,它们还可处理 ML 结果并触发系统自动响应,以便在问题出现时(且通常是在用户知道问题发生之前)予以解决。
  • 持续学习,以改进对未来问题的处理。AI 模型可帮助系统理解和适应环境的变化(例如,当 DevOps 团队配置新的基础设施或重新配置现有基础设施时)。
Mixture of Experts | 12 月 12 日,第 85 集

解码 AI:每周新闻摘要

加入我们世界级的专家小组——工程师、研究人员、产品负责人等将为您甄别 AI 领域的真知灼见,带来最新的 AI 资讯与深度解析。

实施智能运维 AIOps

每个组织的智能运维 AIOps 之旅都不尽相同。一旦企业领导者提炼出 AIOps 战略,他们便可开始整合用于帮助 IT 团队观察、预测和快速响应 IT 问题的各个工具。

选择用于改进 AIOps 的工具时,很多团队会考虑以下功能:

  • 可观测性:可观测性是指您仅根据对外部输出的了解就能理解复杂系统的内部状态或状况的程度。系统的可观测性越强,团队就能更快、更准确地走完从已识别性能问题到根本原因的路径,而所有这些都无需进行额外的测试或编码。

    领先的可观测性工具提供了对现代分布式业务服务和应用程序的深入可见性,以便更快速地自动识别并解决问题。

    在 IT 和云计算领域,可观测性使用先进的软件工具和实践来聚合、关联和分析来自分布式应用程序及其所在的硬件与网络的性能数据流。可观测性有助于实现更有效的应用程序与网络监控、故障排除与调试流程,以便系统继续满足用户体验预期、服务级别协议 (SLA) 和其他业务要求。

  • 预测性分析:预测性分析高级分析的一个分支,它使用历史数据、统计建模、数据挖掘技术和机器学习来预测未来结果。在 AIOps 领域,团队使用预测性分析来查找数据模式并识别风险和机会。

    现代企业充斥着来自整个组织的不同数据存储库的数据。预测性分析使用逻辑与线性回归模型、神经网络和决策树等工具,以从大量企业数据中获得可操作的洞察分析,并对未来的系统事件进行预测。

  • 主动响应:某些 AIOps 解决方案会主动响应意外事件(如速度变慢和中断),以便实时将应用程序性能和资源管理结合起来。

    通过将应用程序性能指标输入到预测算法中,团队可识别出与不同 IT 问题相符的模式和趋势。鉴于 AIOps 工具能在 IT 问题发生之前进行预测,此类工具便可自动解决问题,以及时处理系统问题。

    事件响应自动化技术是实现有效 IT 系统管理的必要组成部分。此类技术可帮助企业改善顾客与客户体验,并显著改善平均检测时间 (MTTD) 等关键性能指标。此外,AIOps 系统还为 IT 运营团队提供了一个安全网,从而可解决仅靠人工监督而可能遗漏的问题。

比较与领域无关以及以领域为中心的 AIOps 工具

AIOps 平台可根据组织的 IT 需求和 AIOps 战略为组织提供不同级别的自动化。

AIOps 软件采用与领域无关的方法,从各种来源收集数据,以解决各个操作领域(例如网络、存储和安全)的问题。这些工具可提供全面的整体性能视图,从而帮助组织解决多个领域的问题。

但是,它们可能无法提供 IT 团队解决特定痛点或满足独特行业需求所需的详细洞察分析。与领域无关工具的广泛性意味着它们擅长提供总体概述,但在针对细微挑战提供有针对性的事件管理解决方案方面则可能会有所欠缺。

以领域为中心的 AIOps 工具侧重于特定领域,而无论它是 IT 环境还是特定行业。虽然这些工具无法覆盖整个 IT 环境,但它们具有高度专业性,而 AI 模型也会在各自特定领域的对应数据集上进行训练。此专业化可让这些工具提供精确的洞察分析和解决方案。

例如,在网络环境中,以领域为中心的工具可通过了解标准网络协议和模式来准确出现识别瓶颈的原因。而通过专门的训练和聚焦,它还可确定缓慢问题是由分布式拒绝服务 (DDoS) 攻击还是简单的系统配置错误造成的。

无论组织选择哪种类型的工具,团队均须:

  • 使用全面的代表性数据集对 AI 模型进行训练,以实现最佳可靠性和准确性。
  • 使用透明、公平的 AI 模型,以便利益相关者能理解基于 AI 的决策。
  • 培训 IT 团队如何有效地使用工具和洞察分析,以实现 AIOps 平稳过渡。
  • 指派专人监督和验证 AI 模型的结论,以对团队和系统持续问责。

AIOps 与 DevOps

AIOps 和 DevOps 均为旨在增强 IT 运营的方法,但它们各自侧重于软件生命周期的不同方面。

DevOps 旨在整合开发与运营团队,以促进整个软件开发流程的协作和效率。它可简化并自动运行编码、测试与部署流程,并加快持续整合持续交付 (CI/CD) 管道,从而实现更快、更可靠的软件发布。

DevOps 还使用基础设施即代码等工具和协作平台来打破团队之间的孤岛,并确保可快速交付软件更新而不影响质量。

DevOps 专注于加快和完善软件开发与部署,而 AIOps 则会使用 AI 来优化企业 IT 环境的性能,从而确保系统平稳、高效地运行。AIOps 平台使用 ML 和大数据分析来分析大量运营数据,以帮助 IT 团队主动检测和解决问题。

将 DevOps 服务与 AIOps 一起使用时,它们可帮助企业创建一个互补、全面的方法来管理整个软件生命周期。

智能运维 AIOps 用例

AIOps 服务可帮助企业处理多种用例,其中包括:

根本原因分析

根本原因分析 (RCA) 可确定问题的根本原因,并通过适当的解决方案加以补救。RCA 可帮助团队避免因治标不治本而适得其反。

例如,AIOps 平台可追踪网络中断的根源并立即予以解决,并设置保障措施以防止将来出现同一问题。

异常检测

异常检测:AIOps 工具可梳理大量历史数据,并发现数据集中的非典型数据点。这些异常值可帮助团队识别和预测存在问题的事件(例如数据泄露),并避免这些事件可能带来的代价高昂的后果(负面公关、监管罚款和消费者信心下降等问题)。

性能监控

现代应用程序通常由多层抽象层分隔开来,因此很难了解哪些底层本地服务器、存储资源和网络资源在支持哪些应用程序。而 AIOps 则有助于弥合此差距。

它可充当云基础设施、虚拟化和存储系统的监控工具,以报告使用情况、可用性和响应时间等指标。此外,AIOps 使用事件关联功能来整合和聚合信息,以便用户更轻松地使用和理解信息。

云采用和迁移

对于大多数组织来说,云采用是一个渐进而非一蹴而就的活动。这通常会产生混合多云环境(包括很多依赖于 API微服务等技术的互连部分)以及多个依赖关系,而这些依赖关系可能会变化太快、太频繁,从而导致无法予以记录。通过清晰地了解这些相互依存关系,AIOps 可显著降低与云迁移混合云方法关联的运营风险。

DevOps 采用

DevOps 通过赋予开发团队更多配置和重新配置 IT 基础设施的权力,从而加快开发速度。但是,团队仍须管理此架构。AIOps 提供 IT 团队支持 DevOps 所需的可见性和自动化,而无需过多人工监督。

智能运维 AIOps 的优点

AIOps 的主要优点在于,它有助于 ITOps 团队比手动筛选来自多个工具和组件的警报更快地识别、应对和解决减缓与中断问题。如此一来,便可支持企业实现:

更短的平均修复时间 (MTTR)

通过消除 IT 运营噪音并关联来自多个 IT 环境的运营数据,AIOps 可比人类更快、更准确地识别根本原因并提出解决方案。加速后的问题识别与事件解决流程有助于企业设定并实现先前无法想象的 MTTR 目标。

降低运营成本

运营问题自动识别和重新编程的响应脚本可降低运营成本,并推动实现更精确的资源分配。它还可减少 IT 人员的工作量,并腾出人力资源来从事更具创新性和复杂性的工作,从而改善员工体验。

改善可观测性和协作效果

AIOps 监控工具内的集成项有助于跨 DevOps、ITOps、治理与安全团队开展更有效的协作。更好的可见性、沟通和透明度有助于这些团队改进决策并更快地响应问题。

预测性 ITop 管理

借助内置的预测性分析功能,AIOps 平台会不断学习如何识别最紧急的警报,并划分其优先级。此功能有助于 IT 团队在潜在问题导致非计划停机、中断和服务中断之前解决它们。