根本原因分析

Instana インシデントを管理し、可能性のある根本原因の特定を加速する。 Instana 自動的にインシデント、問題、変更を検知し、アプリケーションのサービス品質問題を検出、理解、調査するのに役立ちます。

現在、DevOps 技術者は、数百個あるいは数千個のコンポーネントから構成される動的アプリケーション環境において、重大な問題に直面しています。 システムに障害が発生した際、ユーザーがサービスへの影響を実感する前であっても、可能な限り迅速に問題を検知し理解できる必要があります。 DevOps はサービスを可能な限り迅速に復旧させた後、正確な根本原因を特定し、問題が再発しないよう対策を講じる必要があります。 DevOps は問題の根本原因を特定するのに数時間から数日を要し、多くの場合、原因は特定されないままとなる。

インシデント

インシデントは最も高い深刻度レベルをもたらす。 ユーザーがアクセスするエッジサービスが影響を受けるか、影響の差し迫ったリスクが存在する場合に発生します。 ダイナミック・グラフを使用して、各インシデントのすべての関連するイベントが相関付けられて、コンテキストおよび根本原因分析の仮説が提供されます。

サービスが突然、通常よりも応答が遅くなった場合、この事象を平均レイテンシの急激な増加と呼びます。 このインシデントは自動的に警告として黄色でマークされます。このインシデントがアクティブな間、色が表示されます。 解決後は色が灰色に変わり、ドリルダウンメニューで引き続き利用可能です。 以下のインシデントの例を参照してください。

図 1. インシデント
インシデント

インシデント詳細ビューは次の 3 つの部分で構成されています。

  1. ヘッダーには、インシデントの主な事実に関する基本情報が表示されます。

    • 開始時刻;
    • 終了時刻 (継続している場合は「現行」)
    • まだアクティブであるイベントの数
    • 関連する変更の数
    • 影響を受けるエンティティーの数

    インシデントの開始日、終了日(クローズ済みの場合)、現在アクティブなイベント数、このインシデントに関連する変更数、および影響を受けるエンティティの数が確認できます:

    図 2. インシデントKPI
    インシデントKPI
  2. 2 番目のセクションには、経時的なインシデントの進行状況が視覚的に表示されます。 このチャートは、開始から終了までの全期間と、開始時刻順に並べ替えられたすべてのイベントを示しています。 このビューが省略されている場合は 7 つのイベントに制限されます。 インシデントに一度に 7 つを超えるイベントが含まれている場合は、展開ボタンを押してフル・ビューを表示します。 いずれかのバーをクリックすると、その問題の詳細ビューが開きます。

    図 3. インシデント対象集団
    インシデント対象集団
  3. 第3節には、第2節のグラフ表示に関する詳細が含まれています。 開始時刻順に並べ替えられた全イベントの一覧により、ユーザーは各イベントのすべての利用可能な情報を確認できます。 イベントをクリックすると詳細が表示され、そのイベントに関するすべての利用可能な情報を確認できます:

    図 4. 拡張されたインシデントイベント
    拡張されたインシデントイベント

詳細情報はイベントを理解する際に役立ちます。詳細情報の後には、視覚化のために対応するメトリックがプロットされている複数のグラフが続きます。 イベントがまだアクティブな場合、グラフは新しい着信メトリック値のレンダリングを続行します。 二つの旗が利用可能です。 一方のフラグは、イベントがサービスに影響を与えることを強調し、もう一方のフラグは、イベントがインシデントを引き起こしたことを示す。 利用可能な場合、フラグはリスト内の各イベントの上に配置されます。

イベントに焦点を当てると、詳細セクションには、ポイント3のインシデントイベントリストに記載されているのと同じ情報が提供されます。

自動推定根本原因(パブリックプレビュー)

DevOps の運用担当者の平均復旧時間(MTTR)を短縮するため、 Instana はインシデントの推定根本原因を特定するプロセスを自動化します。 Instana の推定根本原因エンジンは、固定ルールに依存する代わりに、統計的かつ非決定論的な分析モデルを採用しています。 Instana モデルの因果関係AIアルゴリズムを用いて、トレース統計とトポロジーを動的に分析し、発見されたパターン、依存関係、異常相関、テレメトリ信頼度スコアを評価することで、インシデントの原因として最も可能性の高いコンポーネントを推定します。

因果AIアルゴリズムは、問題の原因である可能性が高いエンティティ(または複数のエンティティ)を特定します。 「推定根本原因 」セクションには、最も可能性の高い根本原因として特定された最大3つのエンティティが表示されます。 これらのエンティティは問題を引き起こす可能性の高い順に並べ替えられており、最も可能性の高い根本原因が最初に表示されます。 エンティティは、 Instana によって監視され表示される、あらゆる物理的または論理的なエンティティである可能性があります。 表示されているエンティティは、そのエンティティの詳細ページにリンクしており、そのページにはインシデント発生時点におけるエンティティの状態が記載されています。 この特定された可能性のある根本原因により、 Instana は、 DevOps の実践者がアプリケーションの障害の実際の原因と解決策をより迅速に特定することを可能にします。

インシデントの推定根本原因は、AIモデルが特定した推定根本原因に対して十分な信頼度レベルに達した場合にのみ、そのインシデントの詳細ページに表示されます。 信頼度が十分に高くない場合、 Instana はインシデントの原因として誤解を招く可能性のある誤った原因を示さないよう、意図的に推定される根本原因または対応するUIセクションを表示しません。

Instana 以下のエンティティタイプに対して、スマートアラートから作成されたインシデントについてのみ、分析を行い、可能性の高い根本原因を特定します:
  • アプリケーションのパースペクティブ
  • サービス
  • エンドポイント
  • アプリケーション視点におけるサービスレベル目標
図 5. 推定根本原因
推定根本原因
インシデントの詳細ページで可能性の高い原因が特定され、 「可能性の高い根本原因 」セクションが表示される場合、そのセクションには以下の情報が含まれます:
  • 最も可能性の高い根本原因の要因、および特定されたその他の可能性のある根本原因、ならびに関連するインフラストラクチャまたはアプリケーション情報。 表示されている階層構造からエンティティの詳細ページへのリンクも含まれています。
  • DevOps の専門家が特定の要因を根源的原因として特定する理由を理解する際に、その要因を特定するために用いられる根拠。
  • 特定された可能性のある根本原因に対する推奨される対応策の一覧
  • 高度なLLMベースの調査機能を活用し、追加の洞察を提供するインテリジェントなインシデント調査を実行するオプション(UIボタン)。 詳細はこちらをご覧ください
  • 関連するイベントを表示するオプション(UIボタン)。このイベントは、推定される根本原因エンティティに関連付けられており、障害発生の可能性を示す確率レベルも併せて表示されます。 関連するイベントはすべて、推定される根本原因エンティティで発生した最近のイベントです。 詳細な関連イベントにより、 DevOps の運用担当者は、問題を引き起こした課題、インシデント、または変更イベントを迅速に特定できます。
  • 関連するトレースエラーメッセージとログを表示するオプション(UIボタン)により、問題の根本原因を特定し、一目で追加の詳細情報を把握できます。
    • トレースエラーメッセージは、原因の可能性がある箇所(システムでトレースエラーが記録されている場合)を通過するトレースを通じて抽出されます。 この表には、エラーメッセージ自体と、定義された時間枠内で記録されたその特定のメッセージの発生回数が表示されます。
    • トレースログは、システムのコールフローにおけるイベントのより包括的な記録です。 トレースログはカウント順に並べられ、ログレベル(例:`WARN`や` ERROR ERROR` WARN)を含みます。

問題

問題とは、アプリケーション、サービス、またはその一部が劣化した場合に作成されるイベントです。 Instana 数百の厳選されたヘルスシグネチャが付属しており、サービス品質の低下から複雑なインフラストラクチャの問題、ディスクの飽和に至るまで、様々な問題を検出します。 メトリクス、イベント、またはメタデータが期待値に戻ると、問題は自動的に解決されます。

組み込みの問題に加えて、ご使用のシステムに固有の問題を検出するために カスタム・イベント を定義することができます。

Instana によって検出されたすべての課題(組み込み課題とカスタム課題の両方)を確認するには、 [イベント] ビューに移動し、 [課題 ]タブを選択します。 ダイナミックフォーカスを使用して問題をフィルタリングできます。

各 Instana 号には以下の情報が含まれています:

  • 重大度: この情報は「重大」または「警告」のいずれかです。 重大とは、データ損失またはサービス利用不能の直接的または間接的なリスクがあることを意味します。 警告とは、ユーザー体験に影響を与える可能性のある、または長期的に問題を引き起こす可能性のあるその他のパフォーマンス上の問題を指します。
  • 問題の開始時刻、終了時刻、および継続時間。
  • 影響を受けるエンティティ:問題の影響を受けるエンティティが一つ以上存在する。
  • 詳細:問題解決のための追加説明と対策。
  • メトリクス:問題発生前後の時期に関連するメトリクス値を示すメトリクスチャート。
  • 該当する場合は、 Unbounded Analytics にアクセスし、問題の影響を受けているトレース、コール、またはページロードを調査してください。
図 6. イベント詳細の例
イベント詳細の例

この例では、1 つの Linux マシン上の CPU スチール時間が疑わしいため、問題としてマークされています。 単体の問題はアラートを発生させませんが、 Instana はその発生を記録します。 このシステムが接続されているサービスが正常に動作しない場合、この問題はインシデントの一部となります。 この手法は Instana の主要な利点の一つであり、イベントとパフォーマンス問題を人手による相関分析を行う必要がないためです。 何かが一時的にCPUを過剰に使用しているからといって、問題が存在するとは限らない。 この情報は、サービスに影響を与える場合にのみ関連性を持つ。

組み込みおよびカスタムの問題の管理に関する詳細については、 「組み込みイベントの管理」 を参照してください

Instana は監視対象サービス間のすべての依存関係を把握しているため、サービス品質の問題が発生しユーザーに影響が及んだ場合、すべてのインシデントに対してインシデントをトリガーします。 また、ディスク飽和や Elasticsearch クラスターの分割脳状態など、重大なインフラストラクチャの問題についてもインシデントをトリガーします。これらの問題はデータ損失を引き起こす可能性が高いためです。

注: トラフィックが稀なアプリケーション、サービス、またはエンドポイント(例:15分に1回の呼び出し)は、問題検出の十分な根拠を有すると見なされません。 問題の重大度は、その存続期間中に変化することがあります。 これは、この特定の問題が到達した最高の重大度を表します。
Draft comment:

Impacted Users for application issues (private preview)

This feature is under private preview. You can contact the technical Instana support to get included in this program.

By using this feature, you can see the impacted users of a specific event, and get valuable insights into how events are affecting your users by quickly identifying and addressing issues that impact user experience.

Availability

To use this feature, ensure that the following conditions are met:
  • Both your front-end (website or mobile app) and back-end servers are monitored by Instana.
  • The correlation between front-end and back-end monitoring functions as expected. For more information, see [Backend correlation](../website_monitoring/backend_correlation.md).
  • The Impacted Users feature is currently supported only for application issues.

What is an impacted user?

An impacted user is a user whose experience is negatively affected by an application issue that triggers an event. For example, an impacted user might be someone whose journey or visit to your website or mobile app is disrupted due to a back-end server error issue as follows:
  • The user encounters a critical error page and cannot continue using the site or app.
  • The user experiences significant delays or timeouts, leading to a disrupted experience.
  • The user's actions (such as form submissions or transactions) fail to complete due to server-side issues.

Event data correlation and impact analysis

When an event is triggered, the system correlates data from your front-end and back-end monitoring to identify which end users are impacted. Then, you can detailed information about the affected users and understand the scope and impact of the issue.

変更

変更とは、サーバーの起動/停止、デプロイ、システム上の構成変更など、変更を表すイベントです。 さらに、以下のように分類される:

  • 変更点 - コンポーネントの設定変更(例:バージョン、環境変数値、その他のコンポーネント)
  • オフライン/オンライン - 管理対象コンポーネントの状態追跡

変更イベントは、動的グラフと組み合わせて使用される重要な情報であり、構成の変更とインシデントの関係を自動的に検出するために用いられます。

図 7. 変更内容の例
変更内容の例

「イベント」ビュー

Instana で検出されたすべてのイベントを確認するには、 イベントダッシュボードに移動し、 インシデント問題変更またはすべてのタブを選択して、対応するイベントタイプを表示します。

図 8. イベント - 検索ビュー
イベント - 検索ビュー

全イベントに対するフィルタリング機能

ダイナミック・フォーカス・クエリー

Instana によって検出されたイベントの検索は、 Dynamic Focus 機能に依存しています。 イベント棒グラフで1つ以上の複数の棒を選択すると、イベントテーブルには選択した棒に含まれるイベントのみが表示されます。 イベント棒グラフの棒を選択することで、現在の時間間隔を変更せずにイベントの詳細な確認が可能です。 また、検索ボックスを使用して、概要テーブルの「タイトル」または「発生先」(インシデントが発生したサービス)の列のデータから特定の項目を検索することもできます。 この例での検索クエリーは event.text:"Error rate" です。 結果は、タイトルに「エラー率」というフレーズを含むすべてのイベントのリストです:

フィルタリングテーブル

イベントビューは専用のUIフィルターを通じて強力なフィルタリング機能を提供します。 イベントリストは、3つの主要なフィルターオプションを使用して絞り込むことができます:

  • 一時的なイベント :イベントが一時的、非一時的、またはその両方である場合。
  • イベントの種類 :イベントが組み込みかカスタムか。
  • スマートアラート :アプリケーション、ウェブサイト、シンセティック、インフラストラクチャ、モバイル、ログ、またはSLOからのスマートアラートによってイベントがトリガーされた場合。

これらのフィルターは単独または組み合わせて使用でき、関連するイベントを素早く見つけ出し、トラブルシューティングの取り組みを最も重要な点に集中させることができます。

図 9. イベント - 検索ビュー
イベント - 検索ビュー