根本原因分析
Instana 管理事件并加速识别可能的根本原因。 Instana 自动检测事件、问题和变更,帮助您发现、理解并调查应用程序的服务质量问题。
DevOps 在当今由数百甚至数千个组件构成的动态应用程序世界中,从业者面临着重大挑战。 当系统出现故障时,必须能够尽早检测并理解问题,甚至在用户开始感受到服务影响之前。 在 DevOps 尽快恢复服务后,他们需要查明确切的根本原因并确保问题不再发生。 DevOps (故障诊断工具)可能需要数小时甚至数天才能确定问题的根本原因,而很多时候,原因仍无法查明。
事件
事件导致最高严重性级别。 当用户访问的边缘服务受到影响或存在即将发生影响的风险时,这些事件就会被创建。 使用动态图,针对每个突发事件关联所有相关事件,以提供上下文和根本原因分析假设。
某项服务突然响应速度低于正常水平,我们将此事件称为平均延迟突增。 该事件会自动标记为黄色作为警告。该颜色将持续显示至此事件结束。 解决后,颜色变为灰色,但仍可用于展开菜单。 请看以下事件的例子。

事件详细信息视图组织为三个部分:
该头包含有关事件的关键事实的基本信息。
- 开始时间;
- 结束时间(如果仍在进行中,那么为当前时间);
- 仍处于活动状态的事件数;
- 所涉及的更改数;
- 受影响实体的数量。
您可以查看事件的开始日期、结束日期(若已关闭)、当前仍处于活动状态的事件数量、属于该事件的变更数量,以及受影响实体的数量:
图 2. 事件关键绩效指标 
第二部分提供了随时间变化的事件发展的直观表示。 该图表显示了完整的时间范围,从开始到结束,并按开始时间排序了所有事件。 该视图在折叠时限制为 7 个事件。 如果您的事件一次包含超过 7 个事件,请按展开按钮以查看完整视图。 单击任何一个条形将打开该问题的详细信息视图:
图 3. 事件人群 
第三部分包含第二部分中图形视图的详细信息。 按开始时间排序的全部活动列表,可让用户查看每个活动的完整信息。 点击活动以展开详情,查看该活动的全部可用信息:
图 4. 扩展事件 
详细信息帮助您了解事件,然后是多个图表,其中绘制了相应的度量值以进行可视化。 如果某个事件仍处于活动状态,那么图表将继续呈现新的传入度量值。 有两种旗帜可供选择。 一个标志用于强调事件影响了服务,另一个标志则表示该事件触发了该事件。 若可用,标记将显示在列表中的每个事件上方。
当您聚焦某个事件时,详情部分将提供与第3点所述事件列表中相同的事件信息。
自动推测根本原因(公开预览版)
为缩短 DevOps 从业者的平均修复时间(MTTR), Instana 可自动识别事件的可能根本原因。 Instana 的可能根本原因引擎采用统计性、非确定性分析模型,而非依赖固定规则。 Instana 该系统利用模型的因果人工智能算法,动态分析追踪统计数据和拓扑结构,评估发现的任何模式、依赖关系、异常关联以及遥测置信度评分,从而推断出最可能引发事件的组件。
因果人工智能算法识别出可能导致问题发生的主体(或多个主体)。 "可能的根本原因 "部分最多显示三个实体,这些实体被识别为最可能的根本原因。 这些实体按引发问题的可能性排序,因此最可能的根本原因会优先显示。 实体可以是任何由 Instana 监控并显示的物理或逻辑实体。 任何显示的实体链接至该实体的详情页面,该页面描述了事件发生时实体的状态。 通过识别出这一可能的根本原因, Instana 使 DevOps 从业者能够更快速地确定应用程序故障的实际原因及解决方案。
事件的可能根本原因仅在该事件的详细信息页面上显示,前提是人工智能模型对所识别的可能根本原因达到足够的置信度。 若置信度不足, Instana 将刻意不显示可能的根本原因或对应的用户界面区域,以避免为事件标注误导性或错误的成因。
- 应用程序透视图
- 服务
- 端点
- 应用程序视角的服务级别目标

- 最可能的根本原因实体,以及任何其他已识别的可能根本原因,连同相关的基础设施或应用程序信息。 还包含指向所示层级中实体详情页的链接。
- 用于确定实体的证据,可帮助您的 DevOps 从业者理解为何将特定实体识别为可能的根本原因。
- 针对已识别可能根本原因的建议行动清单。
- 一个选项(UI按钮),用于启动智能事件调查,该调查利用基于大型语言模型的先进调查能力提供额外洞察。 了解更多信息。
- 一个选项(UI按钮),用于查看与可能的根本原因实体相关的事件,以及指示故障可能性的概率级别。 相关事件均为近期发生在可能根本原因实体上的事件。 通过详细关联事件, DevOps 实践者能够快速识别导致问题的故障、事件或变更事件。
- 一个选项(UI按钮)可查看相关的跟踪错误消息和日志,以发现可能的根本原因,从而一目了然地获取问题的更多细节。
- 通过流经可能原因的跟踪(如果您的系统正在记录任何跟踪错误),提取跟踪错误消息。 该表格同时显示了错误消息本身,以及在指定时间段内记录的该特定消息的发生次数。
- 跟踪日志是对系统呼叫流程事件的更全面记录。 跟踪日志按计数排序,并包含日志级别,例如
ERROR和WARN。
问题
问题是指当应用程序、服务或其任何部分性能下降时触发的事件。 Instana 内置数百个精选健康签名,可检测从服务质量下降、复杂基础设施问题到磁盘饱和等各类问题。 当指标、事件或元数据恢复到预期值时,问题将自动解决。
除了内置问题,您还可以定义定制事件以检测特定于您的系统的问题。
要查看 Instana 检测到的所有问题(包括内置问题和自定义问题),请转到事件视图,然后选择问题选项卡。 您可以使用动态聚焦来筛选问题。
每份《 Instana 》期刊包含以下信息:
- 严重性:此信息可为严重或警告。 关键性意味着存在数据丢失或服务不可用的直接或间接风险。 警告表示任何其他可能影响用户体验或长期导致问题的性能问题。
- 问题的开始时间、结束时间及持续时间。
- 受影响实体:一个或多个实体受到该问题的影响。
- 详细信息:提供更多背景信息和解决问题的措施的补充说明。
- 指标:显示与问题相关指标值的指标图表,这些指标值反映了问题发生时及前后相关时段的情况。
- 在适用情况下,请转至Unbounded Analytics 来调查受此问题影响的跟踪记录、调用或页面加载情况。

在此示例中,一个 Linux 机器上的 CPU 耗用时间可疑,因此被标记为问题。 问题本身不会触发警报,但 Instana 会记录该问题的发生。 若本系统所连接的服务运行异常,此问题即属于该事件的一部分。 该方法是 Instana 的主要优势之一,因为您无需手动关联事件与性能问题。 仅仅因为某个程序在一段时间内占用了过多CPU资源,并不意味着存在问题。 该信息仅在影响服务时才具有相关性。
有关管理内置和自定义问题的更多信息,请参阅《 管理内置事件》
由于 Instana 掌握所有受监控服务之间的依赖关系,当服务故障影响用户时,它会针对所有服务质量问题触发事件。 它还会触发关键基础设施问题的事件,例如磁盘饱和和 Elasticsearch 集群脑裂情况,因为这些问题很可能导致数据丢失。
更改
变更是一种事件,代表系统中的变化,例如服务器启动/停止、部署以及配置变更。 此外,分为:
- 变更 - 组件配置的变更,例如版本号、环境变量值及其他组件
- 离线/在线 - 追踪受管组件的状态
变更事件是与动态图结合使用的重要信息,用于自动检测配置变更与事件之间的关联关系。

“事件”视图
要查看 Instana 检测到的所有事件,请转到事件仪表板,然后选择 “事件 ”、 “问题 ”、“变更”或 “全部 ”选项卡以查看对应的事件类型。

所有事件的过滤功能
动态焦点查询
通过 Instana 发现的事件进行搜索依赖于动态聚焦功能。 在事件条形图中选择一个或多个条形后,事件表将仅列出所选条形中包含的事件。 通过选择事件条形图中的条形,您可以在不改变当前时间间隔的情况下,对事件进行详细检查。 您还可以使用搜索框,根据概览表中“标题”或“发生服务”(即事件发生的服务)列的数据查找特定项目。 在此示例中,搜索查询为 event.text:"Error rate"。 结果是一份包含标题中含有短语"Error rate"的所有事件的列表:
过滤表
事件视图通过专用的用户界面过滤器提供强大的筛选功能。 活动列表可通过三个关键筛选选项进行过滤:
- 瞬态事件 :事件属于瞬态、非瞬态或两者兼有。
- 事件类型 :事件是内置事件还是自定义事件。
- 智能警报 :当事件由应用程序、网站、合成监控、基础设施、移动设备、日志或服务水平目标(SLO)的智能警报触发时。
这些过滤器可单独使用或组合使用,以快速查找相关事件,并将您的故障排除工作重点放在最重要的环节上。

Impacted Users for application issues (private preview)
This feature is under private preview. You can contact the technical Instana support to get included in this program.
By using this feature, you can see the impacted users of a specific event, and get valuable insights into how events are affecting your users by quickly identifying and addressing issues that impact user experience.
Availability
What is an impacted user?
Event data correlation and impact analysis
When an event is triggered, the system correlates data from your front-end and back-end monitoring to identify which end users are impacted. Then, you can detailed information about the affected users and understand the scope and impact of the issue.