組み込みイベントのリファレンス
「イベント」ページには、現在使用可能なすべてのイベント (すぐに利用できる組み込みイベントとユーザー定義のカスタム・イベント) のリストが表示されます。 「イベント」ページを表示するには、「設定」->「イベント」をクリックします。
リストは以下の基準でフィルタリングできます。
- タイプ: ビルトインイベントまたはカスタムイベント。
- インシデントと重大度: インシデント、 警告、 重大。
- 全文検索。
重要: 組み込みイベントは変更できません。 組み込みイベントに使用されているのと同じエンティティやメトリクスに基づいて、 カスタム・イベントを作成できます。 カスタム・イベントは、指定のエンティティーの個々のメトリックのしきい値に基づいて、問題またはインシデントをトリガーします。
.NET アプリケーション
| イベント | 説明 | メトリック |
|---|---|---|
| ゴミ収集活動は活発だ。 | CLR ランタイム・プラットフォームにより費やされたガーベッジ・コレクション (GC) 時間をモニターし、最大許容パーセンテージ値と照らし合わせて確認します。 | GC 時間 (mem.time_in_gc)。 |
このセンサーの詳細については、.NETのドキュメントを参照してください。
ActiveMQ
| イベント | 説明 | メトリック |
|---|---|---|
| 送達不能キュー・サイズが増加している。 | 送達不能キューのサイズが増加しています。 送信メッセージが正しい宛先にルーティングされていません。 | ActiveMQ キューのサイズ。 |
| メモリー使用率が制限に近づいている。 | メモリー使用率がメモリー制限の 100% に近づいています。 | メモリー使用率 (memoryPercentage)。 |
| ストア使用率が制限に近づいている。 | ストア使用率がストア制限の 100% に近づいています。 | ストア使用率 (storePercentage)。 |
このセンサーの詳細については ActiveMQ ドキュメントを参照してください。
ActiveMQ Artemis
| イベント | 説明 | メトリック |
|---|---|---|
| ActiveMQ Artemis に接続がない。 | 過去 5 秒間に接続がありませんでした。 現在の接続数が、構成されている NoConnections の値と同じです。 | 合計接続数 (totalConnectionCount)。 |
| ActiveMQ Artemis にコンシューマーがない。 | 過去 5 秒間にコンシューマーがありませんでした。 現在のコンシューマー数は、構成されている NoConsumers の値と同じです。 | 合計コンシューマー数 (totalConsumerCount)。 |
| アドレス・メモリー使用率が制限に近づいている。 | すべてのアドレスのメモリー使用率が、制限の 100% に近づいています。 | アドレス・メモリー使用率 (addressMemoryPercentage)。 |
このセンサーの詳細については、 ActiveMQ Artemisのドキュメントを参照してください。
HTTPd
| イベント | 説明 | メトリック |
|---|---|---|
| Apache 子プロセスが DNS ルックアップで停止した。 | DNS ルックアップによるサーバー・ワーカーの使用率が高いことを検出します。 | Dns (worker.dns)。 |
| ロギングが原因で Apache HTTPd パフォーマンスが低下している。 | ロギング目的でのサーバー・ワーカーの使用率が高いことを検出します。 | ロギング (worker.logging)。 |
| ビジー・ワーカーの数が最大ワーカー数に近づいている。 | ビジー・ワーカーの割合が高いことを検出します。 | ビジー・ワーカー (busy_workers)。 |
このセンサーの詳細については、 HTTPd のドキュメントを参照してください。
アプリケーション
| イベント | 説明 | メトリック |
|---|---|---|
| 呼び出し数が減少してゼロになった | 過去 30 分の値と比較して、呼び出しの数が急激に減少してゼロになったこと (実質的にサービスがこれ以上呼びだされなくなったこと) を検出します。 また、呼び出し数の減少の規模が、リストされている相対しきい値パラメーターおよび絶対しきい値パラメーターを超過している必要があります。 | 呼び出し数/秒 (count) |
| エラー率が高すぎる | 過去 4 分以内の平均エラー数 KPI が指定のしきい値を上回ったときに、一貫して高いエラー率を検出します。 | エラー率 (error_rate)。 |
| エラー率が増加傾向にある | このルールは、指定のメトリックが増加傾向にあるかどうかを確認します。 このルールは、指定のメトリックでの弱い単調な増加を検出するように調整されています。 しかし、この検出器は厳密なものではなく、トレンド候補の内部でのメトリック値の減少をある程度許容する。 | エラー率 (error_rate)。 |
| 呼び出し数が突然減少する | 過去 30 分の値と比較して、呼び出し数 KPI メトリックの値が急激に減少したことを検出します。 また、呼び出し数の減少の規模が、リストされている相対しきい値パラメーターおよび絶対しきい値パラメーターを超過している必要があります。 | 呼び出し数/秒 (count)。 |
| エラー率が突然増加する | 過去 10 分間の KPI 値と比較して、エラー数 KPI の値が急激に増加したことを検出します。 また、エラー数の増加の規模が、リストされている相対しきい値パラメーターおよび絶対しきい値パラメーターを超過している必要があります。 | エラー率 (error_rate)。 |
| 待ち時間が突然増加する | 過去 30 分間の KPI 値と比較して、指定の待ち時間 KPI パーセンタイルが急激に増加したことを検出します。 また、エラー数の増加の規模が、リストされている相対しきい値パラメーターおよび絶対しきい値パラメーターを超過している必要があります。 | 待ち時間 50 パーセンタイル (duration.50th)。 |
| 一部の要求の待ち時間が突然増加する | 過去 30 分間の KPI 値と比較して、指定の待ち時間 KPI パーセンタイルが急激に増加したことを検出します。 また、エラー数の増加の規模が、リストされている相対しきい値パラメーターおよび絶対しきい値パラメーターを超過している必要があります。 | 待ち時間 99 パーセンタイル (duration.99th)。 |
AWS DynamoDB
| イベント | 説明 | メトリック |
|---|---|---|
| 読み込み消費量と読み込みプロビジョニング量の比率がクリティカルである。 | 読み込み消費量と読み込みプロビジョニング量の比率が高いことを検出します。 | 読み込み消費量 (consumed_read)。 |
| 書き込み消費量と書き込みプロビジョニング量の比率がクリティカルである。 | 書き込み消費量と書き込みプロビジョニング量の比率が高いことを検出します。 | 書き込み消費量 (consumed_write) と書き込みプロビジョニング量 (provisioned_write)。 |
このセンサーの詳細については AWS DynamoDB ドキュメントを参照してください。
AWS MSK
| イベント | 説明 | メトリック |
|---|---|---|
| アクティブなコントローラーの数。 | Kafka クラスターでアクティブ・コントローラーの数が異常であるかどうかを確認します。 | アクティブなコントローラーの数 (active_controller_count)。 |
| オフライン・パーティションの数。 | 指定の時間枠内でのオフライン・パーティション違反の最大許容割合を定義します。 | オフライン・パーティションの数 (offline_partitions_count)。 |
| ネットワーク・プロセッサーのアイドル時間が短い。 | Kafka ネットワーク・スレッドに高い負荷がかかっているかどうかを確認します。 | ネットワーク・プロセッサーのアイドル時間 (network_processor_idle)。 |
| 要求ハンドラーのアイドル時間が短い。 | Kafka 要求ハンドラーに高い負荷がかかっているかどうかを確認します。 | 要求ハンドラーのアイドル時間 (request_handler_idle)。 |
| レプリカ生成不足パーティションの数。 | レプリカ生成不足パーティションの数が予期されている数を超えているかどうかを確認します。 | レプリカ生成不足パーティションの数 (under_replicated_partitions)。 |
このセンサーの詳細については、 AWS MSKのドキュメントを参照してください。
AWS RDS
| イベント | 説明 | メトリック |
|---|---|---|
| CPU クレジット残高がゼロに近づいている。 | CPU クレジット残高がゼロに近づいているかどうかを確認します。 | CPU クレジット残高 (cpu_credit_balance)。 |
| 消費された CPU クレジット数が多い。 | インスタンスが消費した CPU クレジット数の割合が最大値に近づいているかどうかを確認します。 | CPU クレジット使用量 (cpu_credit_usage) および CPU クレジット残高 (cpu_credit_balance)。 |
このセンサーの詳細については AWS RDS ドキュメントを参照してください。
Azure API Management Service
Azure API Management センサーは、構成されたカスタム・ヘルス・チェックを毎分自動で実行します。 チェックが少なくとも 1 分間にわたり失敗すると、ユーザーに通知するために問題が生成されます。
| イベント | 説明 | メトリック |
|---|---|---|
| Azure API Management の容量が最大容量制限に近づいている。 | Azure API Management が使用している容量が、利用可能な容量の 90% を超えているかどうかを確認します。 | 容量 (metrics.Capacity)。 |
このセンサーの詳細については、 Azure Api Management ドキュメントを参照してください。
Azure CosmosDB
| イベント | 説明 | メトリック |
|---|---|---|
| Azure CosmosDb ストレージ容量が最大容量制限に近づいている。 | Azure CosmosDb ストレージ容量が最大容量制限に近づいているかどうかを検出します。 | CosmosDb ストレージ容量。 |
このセンサーの詳細については Azure CosmosDB ドキュメントを参照してください。
Azure Redis
Azure Redis Cache センサーは、カスタム・ヘルス・チェックを管理し、毎分実行します。 チェックが少なくとも 1 分間にわたり失敗すると、ユーザーに通知するために問題が生成されます。
| イベント | 説明 | メトリック |
|---|---|---|
| Azure Redis Cache クライアント接続が最大接続数制限に近づいている。 | Azure Redis Cache が使用しているクライアント接続が、使用可能なクライアント接続の 90% を超えています。 | 接続クライアント数 (connectedclients)。 |
| Azure Redis Cache メモリー使用率が最大メモリー制限に近づいている。 | Azure Redis Cache が使用しているメモリーが、使用可能なメモリーの 90% を超えています。 | 使用メモリーの割合 (usedmemorypercentage)。 |
このセンサーの詳細については Azure Redis ドキュメントを参照してください。
Azure SQL Database
Azure SQL Database センサーは、カスタム・ヘルス・チェックを管理し、毎分実行します。 チェックが少なくとも 1 分間にわたり失敗すると、ユーザーに通知するために問題が生成されます。
| イベント | 説明 | メトリック |
|---|---|---|
| データベースでスペースが不足している。 | Azure SQL Database でスペースが不足しているかどうかを確認します。 警告の限度は使用サイズの 80% で、クリティカルの限度は 90% です。 | metrics.storage_percent. |
| データベースの状況。 | データベースが使用できない場合には異常状態になります。 以下のいずれかの条件に該当する場合に、データベースが使用できなくなります。
|
metrics.statusCode. |
| 合計 DTU 使用率が最大 DTU 制限に近づいている。 | Azure SQL Database DTU 使用率が最大 DTU 制限に近づいているかどうかを確認します。 警告の限度は DTU 使用率の 75% で、クリティカルの限度は 85% です。 | metrics.dtu_consumption_percent. |
Azure MySQL Database
Azure MySQL データベースセンサーは、カスタムヘルスチェックを1分ごとに実行する。 少なくとも1分間チェックに失敗した場合、issueが発行されて通知される。
| イベント | 説明 | メトリック |
|---|---|---|
| 利用可能なサーバー接続数が最大接続数に近づいている | Azure MySQL サーバー接続の使用率は、利用可能なクライアント接続の85%以上である。 | アクティブ・コネクション (active_connections) |
このセンサーの詳細については Azure MySQL ドキュメントを参照してください。
Azure サービス・バス
Azure Service Busセンサーは、カスタムヘルスチェックを1分ごとに実行する。 少なくとも1分間チェックに失敗した場合、issueが発行されて通知される。
| イベント | 説明 | メトリック |
|---|---|---|
| Azure サービスバスのDLキューに少なくとも1つのメッセージがある | Azure Service Bus のデッドレターキューに少なくとも1つのメッセージがあるかどうかをチェックする。 | ディード文字メッセージ (deadletteredMessages) |
このセンサーの詳細については、 Azure Service Busのドキュメントを参照してください。
Azure SQL Elastic Pool
Azure SQL Elastic Pool センサーは、カスタム・ヘルス・チェックを管理し、毎分実行します。 チェックが少なくとも 1 分間にわたり失敗すると、ユーザーに通知するために問題が生成されます。
| イベント | 説明 | メトリック |
|---|---|---|
| 合計 eDTU 使用率が最大 eDTU 制限に近づいている。 | Azure SQL エラスティック・プール eDTU が最大 eDTU 制限に達しているかどうかを確認します。 | metrics.dtu_consumption_percent. |
Cassandra
Cassandra クラスター
| イベント | 説明 | メトリック |
|---|---|---|
| 到達不能な Cassandra ノード。 | 1 つ以上のノードが停止しています。 | 到達不能なノードの数 (unreachableNodes)。 |
Cassandra ノード
| イベント | 説明 | メトリック |
|---|---|---|
| ブロックされたスレッド・プール。 | ブロックされたスレッドを含むステージがあるかどうかを確認します。 | ステージのブロックされたスレッドのメトリック。 |
| 除去メッセージ。 | メッセージを除去しているスレッド・プールがあるかどうかを確認します。 | ステージの除去メッセージのメトリック。 |
| 保留中の圧縮。 | 保留中の圧縮が増加しているかどうかを確認します。 | 書き込み (保留中) (compaction.pending)。 |
| 保留中のミューテーション。 | 保留中のミューテーションがあるかどうかを確認します。 | カウンター・ミューテーション(stage.mutation.pending)。 |
| 保留中の読み取り。 | 保留中の読み取り。 | 読み取り修復 (stage.read.pending)。 |
| 保留中の要求応答。 | 保留中の要求応答。 | 書き込み (ミューテーション) (stage.requestresponse.pending)。 |
| 書き込み要求の数が突然減少する。 | Cassandra 書き込み要求数が突然減少したことを確認します。 | 書き込み数 (clientrequests.write.count)。 |
このセンサーの詳細については Cassandra ドキュメントを参照してください。
Ceph
| イベント | 説明 | メトリック |
|---|---|---|
| Ceph クラスターの状況。 | Ceph クラスターから問題 (HEALTH_WARN または HEALTH_ERR) が報告されています。 |
Ceph クラスターの状況 (overall_status)。 |
| モニター・クォーラムに達していない。 | 正常なモニターの数が全モニターの 50% を下回っています。 | モニターの数 (num_mons) およびアクティブ・モニターの数 (num_active_mons)。 |
| OSD がフル・キャパシティー状態である。 | OSD の一部がフル状態を報告しています。 | アクティブ pg およびクリーン pg の数 (num_full_osds)。 |
| OSD がフル・キャパシティーに近い状態である。 | OSD の一部がフル・キャパシティーに近い状態を報告しています。 | フルに近い状態の OSD の数 (num_near_full_osds)。 |
このセンサの詳細については、 Cephのドキュメントを参照してください。
Consul (HashiCorp)
| イベント | 説明 | メトリック |
|---|---|---|
| Consul クラスターの正常性。 | クラスターの全体的な正常性を検出し、Autopilot により正常ではないと見なされているノードがあるかどうかを確認します。 | Consul Autopilot 正常性の状況 (consul.autopilot.healthy)。 |
CRI-O
| イベント | 説明 | メトリック |
|---|---|---|
| メモリーを使い果たした。 | コンテナー・メモリーの使用率が指定の制限を超えたときにそのことを検出します。 | RSS (memory.total_rss)。 |
Docker
| イベント | 説明 | メトリック |
|---|---|---|
| メモリーを使い果たした。 | コンテナー・メモリーの使用率が指定の制限を超えると、メモリー警告しきい値またはメモリー・クリティカルしきい値が表示されます。 | RSS (memory.total_rss)。 |
このセンサーの詳細については Docker ドキュメントを参照してください。
Elasticsearch
Elasticsearch クラスター
| イベント | 説明 | メトリック |
|---|---|---|
| クラスターの状況。 | Elasticsearch クラスターの状況をモニターします。 | Elasticsearch ノードの数 (node_count) および Elasticsearch クラスターの状況 (cluster_status)。 |
| Elasticsearch はスプリット・ブレーン状態である。 | Elasticsearch クラスターに複数のマスター・ノードが含まれているかどうかを確認します。 スプリット・ブレーンは、同名の Elastic クラスターが 2 つ存在する環境でトリガーされます。 | Elasticsearch クラスターのマスター・ノードの数。 |
Elasticsearch ノード
| イベント | 説明 | メトリック |
|---|---|---|
| リバランス実行中の容量制限。 | 容量制限に達したときにシャードを再配置中であったかどうかを確認して、ノードが容量制限に達していると特徴付けます。 | 容量制限評価とシャード再配置の結果。 |
| ヒープの過剰割り振り。 | Elasticsearch のヒープ・サイズ設定が大きすぎるかどうかを評価します。 | 基盤となる JVM の最大ヒープ・サイズと、基盤となるホストのメモリー合計量。 |
| ヒープ使用率が高い。 | ノードのヒープ使用率と最近のワークロード特性を調べ、ヒープ使用率が高すぎることを検出します。 | 基盤となる JVM によるヒープ使用率とワークロードの特性。 |
| ノードが容量制限に達している。 | ノードが容量制限に達しているかどうかを確認します。これは、ホストでの高い負荷および CPU 使用率と、Elasticsearch JVM での高いヒープ使用率および長い GC 時間という 2 つの問題が発生していることから判明します。 | ホストでの高い負荷と長い CPU 時間、Elasticsearch による高いヒープ使用率、および基盤となる JVM での長い GC 時間 |
| ノードの状況。 | Elasticsearch が示すクラスターの状況を確認します。 | ホストでの高い負荷と長い CPU 時間、Elasticsearch による高いヒープ使用率、および基盤となる JVM での長い GC 時間。 |
| 拒否されたアクション。 | 拒否されたスレッドの数が多すぎるかどうかを確認します。 | インデックス (threads.index_rejected)、検索 (threads.search_rejected)、バルク (threads.bulk_rejected)、および取得 (threads.get_rejected)。 |
このセンサーの詳細については Elasticsearch ドキュメントを参照してください。
エンドポイント
| イベント | 説明 | メトリック |
|---|---|---|
| 呼び出し数が減少してゼロになった。 | 過去 30 分の値と比較して、呼び出し数 KPI メトリックが急激に減少してゼロになったこと (実質的にサービスがこれ以上呼びだされなくなったこと) を検出します。 また、呼の低下の大きさは、以下のように、相対的および絶対的な閾値パラメーターを超える必要がある。 | 呼び出し数/秒 (count)。 |
| エラー率が高すぎる。 | 過去 4 分以内の平均エラー数 KPI が指定のしきい値を上回ったときに、一貫して高いエラー率を検出します。 | エラー率 (error_rate)。 |
| 合成エンドポイントのエラー率が高すぎる。 | 過去 4 分以内の平均エラー数 KPI が指定のしきい値を上回ったときに、一貫して合成エンドポイントの高いエラー率を検出します。 | 合成エラー率 (synthetic_error_rate)。 |
| エラー率が増加傾向にある。 | 指定のメトリックが増加傾向にあるかどうかを確認します。 このルールは、指定のメトリックでの弱い単調な増加を検出するように調整されています。 ただし検出機能は厳密ではなく、傾向候補内でのメトリック値の特定量の減少が許容されます。 | エラー率 (error_rate)。 |
| 呼び出し数が突然減少する。 | 過去 30 分の値と比較して、呼び出し数 KPI メトリックの値が急激に減少したことを検出します。 また、呼の低下の大きさは、以下のように、相対的および絶対的な閾値パラメーターを超える必要がある。 | 呼び出し数/秒 (count)。 |
| 合成呼び出し数が突然減少する。 | 過去 30 分の値と比較して、呼び出し数 KPI メトリックの値が急激に減少したことを検出します。 また、呼の低下の大きさは、以下のように、相対的および絶対的な閾値パラメーターを超える必要がある。 | 合成呼び出し数/秒 (synthetic_count)。 |
| エラー率が突然増加する。 | 過去 10 分間の KPI 値と比較して、エラー数 KPI の値が急激に増加したことを検出します。 また、誤差の増加の大きさは、以下のように相対的および絶対的な閾値パラメーターを超える必要がある。 | エラー率 (error_rate)。 |
| 待ち時間が突然増加する。 | 過去 30 分間の KPI 値と比較して、指定の待ち時間 KPI パーセンタイルが急激に増加したことを検出します。 また、誤差の増加の大きさは、以下のように相対的および絶対的な閾値パラメーターを超える必要がある。 | 待ち時間 50 パーセンタイル (duration.50th)。 |
| 一部の要求の待ち時間が突然増加する。 | 過去 30 分間の KPI 値と比較して、指定の待ち時間 KPI パーセンタイルが急激に増加したことを検出します。 また、誤差の増加の大きさは、以下のように相対的および絶対的な閾値パラメーターを超える必要がある。 | 待ち時間 99 パーセンタイル (duration.99th)。 |
etcd
| イベント | 説明 | メトリック |
|---|---|---|
| 異常に長いディスク・バックエンド・コミット期間。 | 長いディスク・バックエンド・コミット期間を検出します。 | ディスク・バックエンド・コミット期間 (health.disk_backend_commit_duration)。 |
| 異常に長いディスク wal fsync 期間。 | 長いディスク wal fsync 期間を検出します。 | ディスク fsync 期間(health.disk_wal_fsync_duration)。 |
| 異常に長いスナップショット期間。 | 長いスナップショット保存期間を検出します。 | スナップ保存合計期間 (health.debugging_snap_save_total_duration)。 |
| 過去 1 分間に発生した頻繁なリーダー変更。 | 過去 1 分間のリーダー変更回数が多いことを検出します。 | サーバー・リーダー変更数 (health.server_leader_changes)。 |
| メンバーにリーダーがない。 | リーダーがないメンバー (使用不可) を検出します。 | サーバーにリーダーが存在する (health.server_has_leader)。 |
| プロポーザル率分析。 | 適用されたプロポーザルの数の異常な減少と、保留中または失敗したプロポーザルの数の異常な上昇を検出します。 | コミットされたプロポーザルの数 (health.server_proposals_committed)、適用されたプロポーザルの数 (health.server_proposals_applied)、保留中のプロポーザルの数 (health.server_proposals_pending)、失敗したプロポーザルの数 (health.server_proposals_failed)。 |
| オープン・ファイル記述子の使用率がクリティカルである。 | オープン・ファイル記述子の使用率が高いこと検出します。 | オープン・ファイル記述子の数 (health.process_open_fds) とファイル記述子の最大数 (health.process_max_fds)。 |
このセンサーの詳細については etcd ドキュメントを参照してください。
Garden コンテナー
| イベント | 説明 | メトリック |
|---|---|---|
| メモリーを使い果たした。 | Container のメモリー使用率がそのメモリー制限に近づいています。 | 使用率 (memory.usage)。 |
このセンサーの詳細については、 Gardenのドキュメントを参照してください。
Glassfish
| イベント | 説明 | メトリック |
|---|---|---|
| Glassfishのファイルキャッシュのヒット率は以下の通りである。 | 処理パイプラインはファイル・キャッシュのヒット率を確認し、指定のしきい値を下回っているかどうかを検証します。 | ヒット率 (file_cache_rate)。 |
| JDBC 接続の最大数に達した。 | 処理パイプラインは JDBC 接続の合計数を確認します。 この数が、サーバー構成の最大制限に達しているかどうかが検証されます。 | 使用接続数 (jdbc_connection_used) |
このセンサーの詳細については、 Glassfishのドキュメントを参照してください。
Google Cloud データ・ストア
| イベント | 説明 | メトリック |
|---|---|---|
| 過去 30 分間に Datastore 要求数が大幅に減少した。 | 要求数が突然減少したことを確認します。 | 要求数 (request_count) |
| 過去 30 分間に Datastore 要求数が大幅に増加した。 | 要求数が突然増加したことを確認します。 | 要求数 (request_count) |
このセンサーの詳細については、 Google Cloud データストアのドキュメントを参照してください。
Google Cloud Storage
| イベント | 説明 | メトリック |
|---|---|---|
| すべてのオブジェクトのサイズが突然増加する | 空ではないバケットで 24 時間内にすべてのオブジェクトのサイズが突然増加したことを確認します。 | バケット内のすべてのオブジェクトの合計サイズ。 |
このセンサーの詳細については Google Cloud Storage ドキュメントを参照してください。
Google Cloud Pub/Sub
| イベント | 説明 | メトリック |
|---|---|---|
| サブスクリプションのプッシュ要求の待ち時間が、過去 10 分間で増加した。 | サブスクリプションのプッシュ要求の待ち時間が突然増加したことを確認します。 | 要求の待ち時間 (push_request_latencies) |
| トピックの最も古いメッセージ。 | トピックにしきい値よりも古いメッセージがあるかどうかを確認します。 | もっと古いメッセージ (oldest_unacked_message_age) |
このセンサーの詳細については Google Cloud Pub/Sub ドキュメントを参照してください。
Hadoop YARN
| イベント | 説明 | メトリック |
|---|---|---|
| リソース・マネージャーが喪失ノードを報告している。 | リソース・マネージャーが喪失ノードを報告しているかどうかを検出します。 | 喪失ノード (lostNodes)。 |
| リソース・マネージャーが正常でないノードを報告している。 | リソース・マネージャーが正常でないノードを報告しているかどうかを検出します。 | 正常でないノード (unhealthyNodes)。 |
| 実行依頼されたアプリケーションが失敗した。 | 実行依頼されたアプリケーションが失敗したかどうかを検出します。 | アプリ失敗 (appsFailed)。 |
このセンサーの詳細については、 Hadoop YARNのドキュメントを参照のこと。
HAProxy
| イベント | 説明 | メトリック |
|---|---|---|
| HAProxy バックエンドの平均キュー・サイズが大きい。 | HAProxy バックエンドの平均キュー・サイズが大きくなっています。 | バックエンドのキュー・サイズ。 |
| HAProxy フロントエンドのセッション使用率が高い。 | HAProxy フロントエンドのセッション使用率が高い。 | フロントエンド・セッション使用率。 |
| 平均応答時間が突然増加する。 | 1 つのバックエンドの平均応答時間が突然増加したことを確認します。 | 平均応答時間メトリック。 |
このセンサーの詳細については HAProxy ドキュメントを参照してください。
Hazelcast
Hazelcast 3.3 以降では、パブリック・メソッド HazelcastInstance::getPartitionService()::isLocalMemberSafe() が使用されています。 旧バージョンの Hazelcast では、健全性ステータスは、各ローカルノードの内部で進行中の移行ステータスから導き出されます。
Hazelcast クラスターの正常性状況は、各 Hazelcast ノードから集約されます。 これは HazelcastInstance::getPartitionService()::isClusterSafe() が内部で行う処理とまったく同じですが、このメソッドの呼び出しによる追加オーバーヘッドは発生しません。
Hazelcast クラスター
| イベント | 説明 | メトリック |
|---|---|---|
| クラスターの状況。 | Hazelcast のクラスターの状況を確認します。 Hazelcast 3.3 以上。 | Hazelcast クラスターの状況フラグ。 |
Hazelcast ノード
| イベント | 説明 | メトリック |
|---|---|---|
| ノードの状況。 | ローカル・メンバーの状況を確認します。 Hazelcast 3.3 以上。 | Hazelcast ノードの状況フラグ。 |
このセンサーの詳細については、 Hazelcast IMDGのドキュメントを参照してください。
HBase
| イベント | 説明 | メトリック |
|---|---|---|
| ストアの数とストア・ファイルの数の間に大きな差がある。 | ストアの数が異常に少ないかまたは異常に多いことを検出します。 | ストアの数 (rs_store_count) とストア・ファイルの数 (rs_store_file_count)。 |
| リージョン・サーバーのブロック・キャッシュ・ヒット率が低い。 | 低いキャッシュ・ヒット率を検出します。 | ブロック・キャッシュ・ヒット率 (rs_blk_cache_hit_rate) およびブロック・キャッシュ・ヒット数 (rs_blk_cache_hit_count)。 |
| 圧縮キューの長さが大幅に増加している。 | 圧縮キューの長さが突然増加したことを確認します。 このルールは、すべてのリージョンがほぼ同じ速度で拡大しており、ほぼ同時に分割/圧縮する必要があることを示しています。 この状態に対処するには、事前に分割するか、または自動圧縮をオフにしておきます。 | 圧縮キューの長さ (rs_comp_queue_length)。 |
| フラッシュ・キューの長さが大幅に増加している。 | フラッシュ・キューの長さが突然増加したことを確認します。 トリガーされた場合は、RAM が不足しているか、またはディスクで対応できない速さでフラッシュが実行されていることを意味します。 | フラッシュ・キューの長さ (rs_flush_queue_length)。 |
このセンサーの詳細については Apache HBase ドキュメントを参照してください。
ホスト
| イベント | 説明 | メトリック |
|---|---|---|
| かなりの CPU 時間が入出力待機に費やされている。 | システムで入出力の待機にかなりの時間が費やされているかどうかを確認します (60 秒間のスライディング・ウィンドウでサンプリング)。 | 待機 (cpu.wait)。 |
| CPU スチール時間を超過している。 | 2 番目の移動ウィンドウで、実行プロセス間にスチールされる CPU またはハイパーバイザー/ホスト OS によりスチールされる CPU が多すぎるかどうかを確認します。 | スチール (cpu.steal)。 |
| デバイスの残り容量が少ないか、またはデバイスがフルである。 | ディスクの低容量の問題を検出して、最大で 15 分前に容量違反の可能性を早期に予測します。 この検出機能は、残りディスク・スペースが合計容量の 1% または 1 GB よりも大きい場合には起動しません。 ただし、残りのディスク・スペースが空(<1MB)の場合、または現在のトレンドに基づいて次の15 分以内にディスク・スペースがいっぱいになる場合は、起動します。 | ディスクのフリー・ストレージ容量。 |
| ディスクの消去よりも速い速度でディスクにデータが取り込まれている。 | 長期的なディスク容量の問題を検出し、今後 48 時間以内にディスクが容量不足になる可能性がある場合に起動します。 この検出機能は、残りディスク・スペースが合計容量の 20% を超えている場合には起動しません。 ただし、現在の傾向に基づくと今後 48 時間にディスク・スペースが満杯になる可能性がある場合には起動します。 この傾向は、時間の経過に伴い収集された極小値に基づいて計算されます。 これらの極小値によって 4 時間以上の時間フレームが定義されると、線形回帰モデルがこれらのデータ・ポイントに適合され、最終的に長期予測が行われます。 | ディスクのフリー・ストレージ容量。 |
| TCP エラーが頻繁に発生する。 | ホストで発生している TCP エラーの数が異常に多いかどうかを確認します (60 秒間のスライディング・ウィンドウでサンプリング)。 | 受信セグメント数/秒 (tcp.inSegs) およびエラー (tcp.errors)。 |
| TCP が頻繁に失敗する。 | ホストで TCP 失敗の数が異常に多いかどうかを確認します (60 秒間のスライディング・ウィンドウでサンプリング)。 | 失敗 (tcp.fails) およびオープン/秒 (tcp.opens)。 |
| 永続的な TCP 再送信。 | ホストで TCP 再送信の数が異常に多いかどうかを確認します ( 60 秒間のスライディング・ウィンドウでサンプリング)。 | 再送信 (tcp.retrans) と送信セグメント数/秒 (tcp.outSegs)。 |
| システム負荷が高すぎる。 | システム負荷が高すぎるかどうかを確認します。このため、負荷と、マシンの CPU コアの 2 倍を比較します (120 秒間のスライディング・ウィンドウでサンプリング)。 | 負荷 (load.1min)。 |
| システム・メモリーを使い果たした。 | システム・メモリーがほぼ使い果たされているかどうかを確認します (即時にトリガーされます)。 | 空きメモリー (memory.free) および使用メモリー (memory.used)。 |
| 開いているファイルが多すぎる。 | プロセスが、ファイルを閉じる操作よりも速い速度でファイルを開いています (現行と最大の比率がしきい値を超えています)。 | 使用接続数 (openFiles.used) |
| 使用されている inode の数が多すぎる。 | ファイル・システムの空き inode のレベルが低いと、この正常性ルールがトリガーされます (現行と最大の比率がしきい値を超えています)。 | inode 使用状況。 |
| ユーザー・プロセスによる CPU 使用率が高すぎる。 | ユーザー・プロセスの CPU 使用率が高すぎるかどうかを確認します (180 秒間のスライディング・ウィンドウでサンプリング)。 | ユーザー (cpu.user) および topPID。 |
| ディスク・スペースが間もなく不足する。 | 短期的なディスクの容量の問題を検出し、今後 1 時間以内にディスクが容量不足になる可能性がある場合に起動します。 この検出機能は、最近、ディスクでかなりの量のスペース (>=100MB) が解放された場合、または残りディスク・スペースが合計容量の 20% を超えている場合には起動しません。 ただし、現在の傾向に基づくと今後 1 時間以内にディスク・スペースが満杯になる可能性がある場合には起動します。 この傾向は、現在のスライディング・ウィンドウのデータ・ポイントに適合された線形回帰モデルに基づいて計算されます。 | ディスクのフリー・ストレージ容量。 |
| Windowsのサービスステータスが変更されました。 | Windowsのサービスステータスが変更されたかどうかをチェックする(60秒のスライディングウィンドウでサンプリング)。 | Windows サービスステータス (state). |
このセンサーの詳細については、 ホストのドキュメントを参照してください。
IBM ACE
| イベント | 説明 | メトリック |
|---|---|---|
| ACE 統合サーバーの状況 | ACE 統合サーバーの状況を検査します。 | 統合サーバーの状態 |
| ACE 統合サーバーの状態 (デジタル形式) | ACE 統合サーバーのデジタル状況を検査します。 | 統合サーバーの状態メトリック |
| キュー・マネージャーの接続状況 (デジタル形式) | ACE 統合サーバーとキュー・マネージャーの間のデジタル状況を検査します。 | キュー・マネージャーの接続状況メトリック |
| エラー番号があるメッセージ | エラーが含まれているメッセージの数。 | エラーがあるメッセージの数 |
| エラー番号があるメッセージ・フロー | MQInput ノードに対する MQGET エラー、または HTTPInput ノードに対する Web Services エラーの数。 | MQGET エラーの数 |
| エラー番号があるメッセージ処理 | メッセージの処理時に発生したエラーの数。 | エラーがあるメッセージの数 |
| メッセージ・フローの状況 | ACE メッセージ・フローの状況を検査します。 | メッセージ・フローの状況 |
| メッセージ・フローの状況 (デジタル形式) | ACE メッセージ・フローのデジタル状況を検査します。 | メッセージ・フローの状況メトリック |
このセンサーの詳細については、 IBM ACEのドキュメントを参照してください。
IBM Db2
| イベント | 説明 | メトリック |
|---|---|---|
| 表 スペース・ユーティリティのメトリクス・ステータス | 自動リサイズ機能が有効な場合と無効な場合に、テーブル・スペースとそのメトリクスに関連するイベントをチェックする。 | 表スペース・ユーティリティー |
| HADR接続状況 | HADRスタンバイ・データベースの接続状態に関連するイベントをチェックする。 スタンバイIDは、任意のスタンバイ・ノードに固有の HADR_CONNECT_STATUS ・イベントを生成するためのフィルターとして使用され、マッチング・オペレーター・フィールドにスタンバイIDを設定することができる。 イベントは、任意のデータベースの現在の状態を表す以下に基づいて作成することができます:
|
HADR_CONNECT_STATUS (hadr.standbyId.HADR_CONNECT_STATUS)。 any に設定されたマッチング演算子は、スタンバイIDに関係なくイベントを生成する。 |
このセンサーの詳細については IBM Db2 ドキュメントを参照してください。
IBM MQ
IBM MQ キュー・マネージャー
| イベント | 説明 | メトリック |
|---|---|---|
| キュー・マネージャー接続数 | 現在、キュー・マネージャーに接続がないかどうかを確認します。 | 接続数 (connectionCount) |
| キュー・マネージャー状況 | Down 、 Switchover イベントをトリガーするために、キューマネージャーが停止状態かスタンバイ状態かをチェックします。 |
キュー・マネージャーのステータス (statusMetric) |
| キュー・マネージャのチャネル・イニシエータ・ステータス | Channel Initiator が実行中であるかどうかをチェックする。 | チャネル・イニシエーターの状況(channelInitiatorStatus) |
| キューマネージャのパブリッシュ/サブスクライブエンジンのステータス | Publish または Subscribe エンジンが実行中かどうかをチェックします。 | パブリッシュ/サブスクライブ・エンジンの状況 (pubsubStatus) |
| ブリッジ停止 [1] | IMS ブリッジが停止していることを示す。 | IBM MQ イベントより |
IBM MQ キュー
| イベント | 説明 | メトリック |
|---|---|---|
| 最も古いメッセージをキューに入れる | キューに閾値より古いメッセージがあるかどうかをチェックする。 | キューの最も古いメッセージ (oldestMessage) |
| キューの深さの差 | キューの深さがキューの深さの最大値に近づいているかどうかをチェックする。 | キュー項目数 (queueDepth) およびキュー項目の最大数 (maxQueueDepth) |
| キューがフル | キューの深さのパーセンテージが警告値または臨界値に達したかどうかをチェックします。 | キュー項目数のパーセンテージ (queueFullPercentage) |
| 送信キューが高い | 送信キュー・メッセージの数が多すぎるかどうかを確認します。 | キュー項目数 (queueDepth) |
| キューサービス間隔高 [1:1] | QServiceInterval 属性で指定された制限を超える間隔で、成功した GET 操作または MQPUT 呼び出しがないことを検出する。 |
IBM MQ イベントより |
| キュー深度上位 [1:2] | QDepthHighLimit 属性で指定されているMQPUTまたは MQPUT1 コールによって、キューの深さが事前に定義された閾値まで増加したことを示す。 |
IBM MQ イベントより |
| キュー・フル [1:3] | キューが満杯のため、(MQPUTまたは MQPUT1 )コールに失敗したことを示す。 つまり、キューはすでに可能な最大数のメッセージを含んでいる。 | IBM MQ イベントより |
IBM MQ チャネル
| イベント | 説明 | メトリック |
|---|---|---|
| チャネル状況 | チャネルが健全な状態にあるかどうかをチェックする。 | チャネルの状況 (channelStatus) |
| チャンネル InDoubt ステータス | チャンネルが疑わしい状態かどうかをチェックする。 | チャネルの状況 (channelStatus) |
| チャンネル変換エラー [1:4] | チャネルがデータ変換を完了できず、送信キューからメッセージを取得するために MQGET を呼び出した結果、データ変換エラーが発生した場合のエラーを示します。 | IBM MQ イベントより |
| チャンネルSSLエラー [1:5] | トランスポート・レイヤー・セキュリティ(TLS)またはセキュア・ソケット・レイヤー(SSL)を使用するチャネルが、 MQ 接続の確立に失敗した場合のエラーを示す。 | IBM MQ イベントより |
内蔵イベントは、 Stopped および InDoubt ステータスにあるチャンネルに内蔵イベントを使用できます。 組み込みメトリックを使用して、他の状況のチャネルのカスタム・イベントを作成する必要があります。 チャネル・ステータスの列挙値については、 IBM MQ チャネル・メトリクス・リファレンスを参照。
IBM MQ リスナー
| イベント | 説明 | メトリック |
|---|---|---|
| リスナー状況 | リスナーが健全な状態にあるかどうかをチェックする。 | リスナーの状況 (listenerStatus) |
このセンサーの詳細については IBM MQ ドキュメントを参照してください。
IIS Internet Information Server
| イベント | 説明 | メトリック |
|---|---|---|
| IIS サイトに対する要求の数が突然減少する。 | IIS サイトに対する要求数が突然減少したことを確認します。 | IIS サイトの合計要求数メトリック。 |
このセンサーの詳細については、 Microsoft IISのドキュメントを参照してください。
IBM Datapower
IBM DataPower アプライアンス
| イベント | 説明 | メトリック |
|---|---|---|
| CPU 使用率でのアプライアンスの比率 | CPU 使用率でアプライアンスの比率が高すぎるかどうかを検査します。 | CPU 使用率 (cpuUsage) |
| メモリー使用率でのアプライアンスの比率 | メモリー使用率でアプライアンスの比率が高すぎるかどうかを検査します。 | メモリー使用率 (memoryUsage) |
| システム負荷でのアプライアンスの比率 | システム負荷でアプライアンスの比率が高すぎるかどうかを検査します。 | システム負荷 (systemLoad) |
| アプライアンスの状況 | アプライアンスの状況が正常な状態であるかどうかを確認します。 | ステータス (status) |
IBM DataPower ドメイン
| イベント | 説明 | メトリック |
|---|---|---|
| メモリー使用率でのドメインの比率 | メモリー使用率でドメインの比率が高すぎるかどうかを検査します。 | 現在のメモリー使用率 (currentMemUsage) |
| IBM DataPower Gateway ピアリング状況 | 各インスタンスのゲートウェイ・ピアリング・ステータスが壊れていないか確認する。 | 故障の状況 ( 'brokenStatus' ) |
IBM DataPower サービス
| イベント | 説明 | メトリック |
|---|---|---|
| メモリー使用率でのサービスの比率 | メモリー使用率でサービスの比率が高すぎるかどうかを検査します。 | 現在のメモリー使用率 (currentMemUsage) |
| サービス状況 | サービス状況が正常な状態であるかどうかを確認します。 | ステータス (status) |
このセンサーの詳細については、 IBM Datapower ドキュメントを参照してください。
JBoss
| イベント | 説明 | メトリック |
|---|---|---|
| コネクターの平均エラー数が多すぎる。 | 処理パイプラインは、指定の時間枠内でコネクターで発生したエラーの数を検出し、またエラーの数がしきい値を超えているかどうかを確認します。 | Jboss コネクター・エラーの数。 |
| ConnectionPool で接続が不足している。 | 処理パイプラインは使用接続の比率を検出し、しきい値に近づいているかどうかを確認します。 | JBoss 接続プールの使用接続の比率。 |
| データ・ソースで接続が不足している。 | 処理パイプラインは、指定の時間枠内でデータ・ソース上の使用可能な接続の数を検出し、接続の合計数がしきい値に近づいているかどうかを確認します。 | JBoss データ・ソースの使用接続の数、データ・ソースの使用可能な接続の数。 |
| ThreadPool でスレッドが不足している。 | 処理パイプラインは最大スレッド数を検出し、現在のスレッド数がしきい値に近づいているかどうかを確認します。 | JBoss スレッド・プールの現行スレッドの数、スレッド・プールの最大スレッドの数。 |
このセンサーの詳細については、 JBoss AS のドキュメントを参照してください。
JBoss Data Grid
| イベント | 説明 | メトリック |
|---|---|---|
| 実行中の状態にないキャッシュ。 | 作成されたキャッシュの数と、JBoss Data Grid で実行中のキャッシュの数の比率を確認します。 その比率が一定の値以下であれば、違反とみなされる。 | キャッシュ・マネージャーの実行中のキャッシュと作成されたキャッシュの数。 |
このセンサーの詳細については、 JBoss Data Grid のドキュメントを参照してください。
JVM
| イベント | 説明 | メトリック |
|---|---|---|
| ガーベッジ・コレクション・アクティビティーが高い。 | 処理パイプラインは、JVM Runtime Platform で費やされたガーベッジ・コレクション時間をモニターし、この値をしきい値に照らして検証します。 | JVM ガーベッジ・コレクション。 |
| JVM コード・キャッシュがいっぱいである。 | 処理パイプラインは、JVM Runtime Platform の最大コード・キャッシュ使用率をモニターします。 | JVM コード・キャッシュ最大使用率。 |
| Perm Gen がいっぱいである (CMS)。 | 処理パイプラインは、最大数の Perm Gen CMS プールが使用されていることを検出します。 | pools.CMS Perm Gen |
| Perm Gen がいっぱいである (G1)。 | 処理パイプラインは、最大数の Perm Gen G1 プールが使用されていることを検出します。 | pools.G1 Perm Gen |
| Perm Gen がいっぱいである (PS)。 | 処理プロセスは、最大数の Perm Gen PS プールが使用されていることを検出します。 | pools.PS Perm Gen |
| スレッドがデッドロック状態である。 | 検出機能は JVM Runtime Platform をモニターし、デッドロック状態のスレッドがあるかどうかを検出します。 | デッドロック常態のスレッドの数 (threads.deadlocked)。 |
| J9VM メモリリーク。 | 検出器は、 GC後に使用されるヒープの増加率を1時間あたりMB単位でチェックし、JVMにメモリ・リークがある可能性があるかどうかを検出する。 IBM J9 VM メモリリーク検出はオプション機能で、Instana バックエンドではデフォルトで無効になっています。 このオプション機能を有効にするには、Instana の導入に関するページを参照してください: SaaS、 セルフホスト型カスタムエディション ( Kubernetes または Red Hat OpenShift Container Platform )、または セルフホスト型クラシックエディション ( Docker )。 | memory.gc.after memory.gc.before |
このセンサーの詳細については、 JVMのドキュメントを参照のこと。
Kafka
Kafka クラスター
| イベント | 説明 | メトリック |
|---|---|---|
| アクティブ・コントローラーの数。 | Kafka クラスターでアクティブ・コントローラーの数が異常であるかどうかを確認します。 | ブローカーのアクティブなコントローラーの数 (broker.activeControllerCount)。 |
Kafka ノード
| イベント | 説明 | メトリック |
|---|---|---|
| Kafka ネットワーク・スレッドに高い負荷がかかっている。 | Kafka ネットワーク・スレッドに高い負荷がかかっているかどうかを確認します。 | ネットワーク・プロセッサー (broker.networkProcessorIdle)。 |
| Kafka 要求ハンドラー・スレッドに高い負荷がかかっている。 | Kafka 要求ハンドラーに高い負荷がかかっているかどうかを確認します。 | 要求処理プログラム (broker.requestHandlerIdle)。 |
| リーダー選出が頻繁に行われている。 | 所定の時間フレーム内で行われるリーダー選出が多過ぎるかどうかを確認します。 | リーダー選出数(broker.leaderElections)。 |
| 不明確なリーダー選出によりデータ損失が発生する可能性がある。 | 不明確なデータ選出が原因で発生する可能性があるデータ損失を確認します。 | 不明確なリーダー選出 (broker.uncleanLeaderElections)。 |
| プロデューサーとコンシューマーがブロックされている。 | パーティションがオフラインであるために、プロデューサーとコンシューマーがブロックされているかどうかを確認します。 | オフライン・パーティションの数 (broker.offlinePartitionsCount)。 |
| in-sync レプリカの数が減少している。 | in-sync レプリカの数が減少しており、指定された間隔内で復旧しなかったかどうかを確認します。 | ISR 縮小 (broker.isrShrinks) および ISR 拡張 (broker.isrExpansions)。 |
| レプリカ生成不足パーティションの数。 | レプリカ生成不足パーティションの数が予期されている数を超えているかどうかを確認します。 | レプリカ生成不足パーティションの数 (broker.underReplicatedPartitions)。 |
このセンサーの詳細については Kafka ドキュメントを参照してください。
Kubernetes
Kubernetes クラスター
| イベント | 説明 | メトリック |
|---|---|---|
| Kubernetes クラスター・コンポーネントの状況。 | Kubernetes が、マスター・コンポーネント (API サーバー、スケジューラー、コントローラー・マネージャー) が正常でないことを報告します。 Kubernetes のバグが原因で、正常性が常に確実に報告されるとは限りません。 これらをフィルターで除外し、クラスターの詳細ページに表示されるだけでアラートが発生することがないようにします。 | Instana の低レベル・イベント。 |
Kubernetes DaemonSet
| イベント | 説明 | メトリック |
|---|---|---|
| 使用可能なレプリカの数が、必要なレプリカの数よりも少ない。 | 使用可能なレプリカの総数が、必要なレプリカの数よりも少ないかどうかを確認します。 これは、Kubernetes DaemonSet にレプリカ・ポッドがないことを示しています。 | 必要な数 (desiredReplicas) と使用可能な数 (availableReplicas)。 |
Kubernetes デプロイメント
| イベント | 説明 | メトリック |
|---|---|---|
| 使用可能なレプリカの数が、必要なレプリカの数よりも少ない。 | 使用可能なレプリカの総数が、必要なレプリカの数よりも少ないかどうかを確認します。 これは、Kubernetes Deployment にレプリカ・ポッドがないことを示しています。 | 必要な数 (desiredReplicas) と使用可能な数 (availableReplicas)。 |
Kubernetes 名前空間
| イベント | 説明 | メトリック |
|---|---|---|
| 要求に対して割り振り可能な CPU が少なすぎる。 | 要求された CPU が最大容量に近づいています (要求された CPU/CPU 容量の比率が 80% を超えています)。 | CPU 要求割り振り (required_cpu_percentage)。 |
| 要求に対して割り振り可能なメモリーが少なすぎる。 | 要求されたメモリーが最大容量に近づいています (要求されたメモリー/メモリー容量の比率が 80% を超えています)。 | メモリー要求割り振り (required_mem_percentage)。 |
| 割り振り可能なポッドの数が少なすぎる。 | 割り振り済みポッドが最大容量に近づいています(割り振り済みポッド/ポッド容量の比率が80% を超えています)。 名前空間の場合、フェーズPending、Running、およびUnknown内のポッドは、割り当て済みとしてカウントされます。 名前空間の容量の値は、名前空間ごとに設定可能な ResourceQuotas に基づいています。 詳細は Kubernetes ドキュメントを参照してください。 |
ポッド割り振り(used_pods_percentage)。 |
Kubernetes ノード
| イベント | 説明 | メトリック |
|---|---|---|
| 割り振り可能な CPU が少なすぎる。 | 要求された CPU が最大容量に近づいています (要求された CPU/CPU 容量の比率が 80% を超えています)。 | CPU 要求割り振り (required_cpu_percentage)。 |
| 割り振り可能なメモリーが少なすぎる。 | 要求されたメモリーが最大容量に近づいています (要求されたメモリー/メモリー容量の比率が 80% を超えています)。 | メモリー要求割り振り (required_mem_percentage)。 |
| 割り振り可能なポッドの数が少なすぎる。 | 割り振り済みポッドが最大容量に近づいています(割り振り済みポッド/ポッド容量の比率が80% を超えています)。 ノードの場合、フェーズRunningおよびUnknown内のポッドは割り振り済みとしてカウントされます。 詳細は Kubernetes ドキュメントを参照してください。 |
ポッド割り振り(alloc_pods_percentage)。 |
| Kubernetes ノードの状態の状況。 | ノードが 1 分以上にわたって作動不能な状態を報告しています。 Ready 状態以外の状態のノードに該当します。 詳細は Kubernetes ドキュメントを参照してください。 |
Instana の低レベル・イベント。 |
Kubernetes ポッド
| イベント | 説明 | メトリック |
|---|---|---|
| Kubernetes ポッドの状態の状況。 | ポッドが 1 分以上にわたって作動不能であり、その理由はポッドが完了したことではありません (PodCondition=Ready、Status=False、Reason != PodCompleted)。 詳細は Kubernetes ドキュメントを参照してください。 | Instana の低レベル・イベント。 |
このセンサーの詳細については Kubernetes ドキュメントを参照してください。
Kubernetes コスト
| イベント | 説明 | メトリック |
|---|---|---|
| クベコスト vCPU 使用率 > 200 | 250 vCPU 無料ライセンスの上限に近づくと警告が記録されます。 | coreCountStats.totalCoreCount |
| クベコスト vCPU 使用率 > 250 | 無料ライセンスは250 vCPUs までしかサポートしません。 | coreCountStats.totalCoreCount |
大規模言語モデル(LLM)
| イベント | 説明 | メトリック |
|---|---|---|
| OTel LLMs ステータスのしきい値。 | LLMがダウンするとアラームが作動する。 | ステータス(llm.status)。 |
| OTel LLMs 応答期間。 | LLMの応答時間が指定されたしきい値を超えると、アラームが作動する。 | レイテンシー(llm.response.duration.max)。 |
Memcached ノード
| イベント | 説明 | メトリック |
|---|---|---|
| flush all コマンドが実行された。 | 多数の flush_all コマンドを検出します。 |
フラッシュ (cmd_flush)。 |
| 多数のキー強制削除。 | 多数のキー強制削除を検出します。 | 強制削除 (evictions)。 |
| キューに入っている接続の数が増加している。 | キューに入っている多数の接続を検出します。 | キューに入っている接続 (conn_queued)。 |
| 生成される接続の数が増加しています。 | 生成される多数の接続を検出します。 | 接続の生成数 (conn_yields)。 |
| Memcached による使用バイト数が最大バイト数制限に達した。 | Memcached による使用バイト数が最大バイト数制限に達しました。 | 使用バイト数。 |
このセンサーの詳細については Memcached ドキュメントを参照してください。
MongoDB ノード
| イベント | 説明 | メトリック |
|---|---|---|
| バックグラウンド・フラッシング待ち時間が増加し続けている。 | バックグラウンド・フラッシュ待ち時間の増加がデータベースから報告されています (150 秒間のスライディング・ウィンドウでサンプリング)。 | 最終バックグランド・フラッシュ待ち時間 (backgroundFlushingLast)。 |
| ロック・キューの長さが増加し続けている。 | 「MongoDb ロック・キュー」メトリックをモニターし、ロック・キューのサイズの増加が急速すぎるかどうかを検証します。 | ロック・キューの長さ (lockQueue)。 |
| ページ・フォールト数が増加している。 | ページ・フォールトが増加しています (150 秒間のスライディング・ウィンドウでサンプリング)。 | ページ・フォールト数 (pageFaults)。 |
| 書き込みロックでのジャーナル・コミットの数が増加している | 書き込みロックでのジャーナル・コミットの数が増加しています (150 秒間のスライディング・ウィンドウでサンプリング)。 | ジャーナル書き込みロック (journalWriteLock)。 |
| マップされていない仮想メモリーの比率が高すぎる | マップされていない仮想メモリーの比率が高すぎます (Instana Host センサーにより即時にトリガーおよび報告されます)。 | Virtual および mapped。 |
MongoDB レプリカ・セット
| イベント | 説明 | メトリック |
|---|---|---|
| ReplicaSet のメンバーがダウンしている。 | メンバーが、セットの別のメンバーから見て到達不能です。 | unreachableNodeCount. |
| ReplicaSet が状況をモニターしている。 | MongoDB レプリカ・セットのすべてのメンバーの正常性をモニターします。 | スレーブ遅延回数 (slaveDelaysCount)、optime の数 (optimesCount)、モニター対象メンバーの数 (monitoredMembersCount)。 |
| レプリカ生成の遅延が増加している。 | レプリカ生成の遅延が増加しています (150 秒間のスライディング・ウィンドウでサンプリング)。 | スレーブ遅延 (slaveDelays) および Optime (optimes)。 |
| レプリカ・セットの接続使用率が高い。 | アクティブな接続の数が最大接続数の 90% を超えています。 | 接続数 ('connections')。 |
このセンサーの詳細については MongoDB ドキュメントを参照してください。
MySQL DB
| イベント | 説明 | メトリック |
|---|---|---|
| 使用可能なサーバー接続が制限に達している。 | 使用済み接続と接続制限の比率が、構成されている比率しきい値を上回っています。 | 接続 (status.THREADS_CONNECTED)。 |
このセンサーの詳細については MySQL ドキュメントを参照してください。
Nginx Server
| イベント | 説明 | メトリック |
|---|---|---|
| Nginx でオフライン・ピアの問題が発生している。 | 非アクティブなピア (NGINX Plus でのみ利用可能)。 | 失敗したアップストリーム (nginx_plus.http.upstreams.peers.failed)。 |
| Nginx が接続を除去している。 | 除去された接続。 | 除去された接続 (connections.dropped)。 |
| Nginx が SSL ハンドシェークに失敗している。 | 失敗した SSL ハンドシェーク (NGINX Plus でのみ利用可能)。 | 失敗したハンドシェーク (nginx_plus.ssl.handshakes_failed)。 |
| アクティブな接続の数が最大数に近づいている。 | 使用中接続数の比率が、構成されている使用中接続の比率のしきい値を超えています。 | アクティブな接続 (connections.active)。 |
このセンサーの詳細については、 NGINX のドキュメントを参照してください。
Node.js アプリ
| イベント | 説明 | メトリック |
|---|---|---|
| ガーベッジ・コレクション・アクティビティーが高い。 | 指定の時間枠における GC にかかった時間が、指定のしきい値を超えているかどうかを確認します。 | GC 一時停止メトリック。 |
| ヘルス・チェックが失敗している。 | 失敗しているヘルス・チェックがあるかどうかを確認します。 詳しくは、 ヘルスチェック・サポートをご覧ください。 | ヘルス・チェックの結果 (healthcheckResult)。 |
このセンサーの詳細については Node.js ドキュメントを参照してください。
OpenShift Deployment Config
| イベント | 説明 | メトリック |
|---|---|---|
| 使用可能なレプリカの数が、必要なレプリカの数よりも少ない。 | 使用可能なレプリカの総数が、必要なレプリカの数よりも少ないかどうかを確認します。 これは、OpenShift DeploymentConfig にレプリカ・ポッドがないことを示しています。 | 必要な数 (desiredReplicas) と使用可能な数 (availableReplicas)。 |
このセンサーの詳細については、 Openshift のドキュメントを参照してください。
OTEL ホスト
| イベント | 説明 | メトリック |
|---|---|---|
| CPU 待ち時間超過 | システムが、入力または出力操作の待ち時間にかなりの時間を費やしているかどうかをチェックする。 | CPU ウェイト (cpu.wait) |
| CPUスティール時間超過 | 時間枠内のCPU Wait違反の許容回数を指定する。 | CPUスティール (cpu.steal) |
| CPU使用率が高い | CPUの使用率が高いかどうかをチェックする。 このイベントは、直近の180秒間のデータを継続的に評価する。 | CPUユーザー (cpu.user) |
| システム負荷が高すぎる | システムの負荷が高いかどうかを、マシンのCPUコアの2倍の負荷と比較することでチェックする。 このイベントは、直近の120秒間隔のデータを継続的に評価する。 | ロード (load.avg_1m) |
| システムメモリを使い果たした | システムメモリがフルに使用されかけているかどうかをチェックする(即座にトリガーされる)。 | 空きメモリ (memory.free) と使用メモリ (memory.used) |
| ディスク容量不足 | 静的しきい値( 1GB )未満、または総ボリュームサイズの1%未満のデバイスの短期的な容量問題を検出します。 さらに、ゼロになるまでの残り時間が現在の変化率で15分未満であれば、容量を検出する。 | ディスクの空き記憶容量 |
このセンサーの詳細については OpenTelemetry ドキュメントを参照してください。
OracleDB
| イベント | 説明 | メトリック |
|---|---|---|
| DB CPU 時間と DB 時間の比率が低い。 | DBのCPU時間とDB時間の比率は、設定された閾値に従う。 | DB CPU 時間/DB 時間の比率 (stats.cpuTimeDbTimeRatio)。 |
| テーブル・スペースの使用率が高い。 | テーブル・スペースの使用中スペースが、構成されている最大スペース量を大幅に超えています。 | テーブル・スペースの使用中スペースのパーセンテージ。 |
| セッションの合計数が最大値に達している。 | 使用中のセッションの比率が、構成されている使用中のセッションの比率のしきい値を超えています。 | セッション数/セッション制限 (stats.usedSessionsRatio)。 |
このセンサーの詳細については OracleDB ドキュメントを参照してください。
OS プロセス
| イベント | 説明 | メトリック |
|---|---|---|
| CPU 使用率 | プロセスが原因で、ホストの CPU 使用率が高くなっています。 | 基盤となるホストと指定のプロセスの CPU 使用時間に対する高 CPU 使用率のルール評価の結果。 |
| オープン・ファイルの使用状況。 | プロセスが、ファイルを閉じる操作よりも速い速度でファイルを開いています (現行と最大の比率がしきい値を超えています)。 | 使用接続数 (openFiles.used) |
| 異常終了。 | キャッチされていないシグナルが原因でプロセスが終了しました。 | |
| 異常終了。 | プロセスがゼロ以外の終了コードで終了しました。 |
このセンサーの詳細については、 OSプロセスのドキュメントを参照してください。
PHP-FPM ランタイム
| イベント | 説明 | メトリック |
|---|---|---|
| PHP-FPM ワーカー・プールの頻繁な再始動。 | PHP-FPM ワーカー・プールが頻繁に再始動されているかどうかを確認します。このため、指定の時間枠内でワーカープールの再始動回数を指定のしきい値に照らして評価します。 | ワーカー・プールの開始回数。 |
| リッスン・バックログが容量超過で構成されている。 | ワーカー・プールのリッスン・バックログが、構成されている容量を超えているかどうかを確認します。 | ワーカー・プール・キューの長さ。 |
| 接続リセット回数が多すぎる。 | 指定の時間枠内で接続リセット回数が指定のしきい値を超えているかどうかを確認します。 | ワーカー・プールの接続リセット回数メトリック。 |
| リッスン・バックログに蓄積されている要求が多すぎる。 | さまざまな PHP-FPM ワーカー・キューのサイズを確認し、しきい値に照らして検証します。 | さまざまな PHP-FPM ワーカー・キューのリッスン・キュー・サイズ・メトリック。 |
| 処理時間がかかっている要求が多すぎる。 | すべてのモニター対象 PHP-FPM ワーカー・プールで処理時間がかかっている要求の比率を確認します。 | PHP-FPM インスタンスのワーカー・プールの処理時間がかかっている要求の数と受け入れられた接続のメトリック。 |
このセンサーの詳細については、 PHP のドキュメントを参照してください。
Synthetic Check
| イベント | 説明 | メトリック |
|---|---|---|
| リモート・ターゲットに到達できない。 | 指定のスライディング・ウィンドウにおける通信試行失敗の割合が、指定のしきい値を超えているかどうかを確認します。 | pingの状況(status)。HTTP状況コードが200 から206 までから300 から307 までの場合、正常な状況になります。icmpの場合、終了値0 は正常と見なされますが、値1 は正常ではないと見なされ、さらに最大実行時間2 秒が設定されます。 |
このセンサーの詳細については、 Synthetic Checkのドキュメントを参照してください。
PostgreSQL DB
| イベント | 説明 | メトリック |
|---|---|---|
| アクティブな接続の使用率。 | アクティブな接続の数が最大接続数の 90% を超えています。 | 接続の使用率 (max_conn_pct)。 |
このセンサーの詳細については PostgreSQL ドキュメントを参照してください。
プロセス
| イベント | 説明 | メトリック |
|---|---|---|
| CPU 使用率が高い。 | 指定のプロセスが原因でホストの CPU 使用率が高くなっているかどうかを評価します。 | 基盤となるホストと指定のプロセスの CPU 使用時間に対する高 CPU 使用率のルール評価の結果。 |
| 開いているファイルが多すぎる。 | 開いているファイルの割合が、構成されているしきい値を超えています。 | 使用接続数 (openFiles.used) |
RabbitMQ
RabbitMQ クラスター
| イベント | 説明 | メトリック |
|---|---|---|
| RabbitMQ ネットワーク分割が検出された | RabbitMQ クラスタ内でネットワーク・パーティションが発生したかどうかを検出します(5 秒ごとにトリガされます)。 | ネットワーク分割の合計 (net_partitions_count)。 |
RabbitMQ Server
| イベント | 説明 | メトリック |
|---|---|---|
| キューがメッセージでいっぱいになっている | 10 分間にわたってキューが未配信メッセージでいっぱいになっています。 | 配信可能メッセージ (overview.messages_ready) および確認済みメッセージ (overview.ack)。 |
| RabbitMQ にコンシューマーがない | 過去 5 秒間に RabbitMQ にコンシューマーがありませんでした。 | コンシューマー (overview.consumers)。 |
| RabbitMQ に接続がない | 過去 5 秒間に RabbitMQ に接続がありませんでした。 | 接続 (overview.connections)。 |
RabbitMQ ノード
| イベント | 説明 | メトリック |
|---|---|---|
| RabbitMQ ファイル記述子使用率がクリティカルである。 | 特定のノードでファイル記述子の使用率がクリティカルです(警告:> 90%、クリティカル:> 98%)。 これは5 秒ごとにトリガーされます。 | RabbitMQ ファイル記述子使用率 (fd_used_rate)。 |
| ノードの RabbitMQ メモリー使用率がクリティカルである。 | 特定のノードでメモリー使用率がクリティカルです(警告:> 90%、クリティカル:> 98%)。 これは5 秒ごとにトリガーされます。 | RabbitMQ メモリー使用率 (mem_used_rate)。 |
| RabbitMQ Erlang プロセスの数がクリティカルである。 | 特定のノードでErlangプロセス・カウントがクリティカルです (警告:> 90%、クリティカル:> 98%)。 これは5 秒ごとにトリガーされます。 | RabbitMQ プロセス・レート。 |
RabbitMQ キュー
| イベント | 説明 | メトリック |
|---|---|---|
| 生成されるメッセージの量が消費できる量を超えている。 | コンシューマーがキューから処理できる量よりも多くのメッセージがキューにパブリッシュされています。 | キューに入れられた RabbitMQ 未確認メッセージ。 |
このセンサーの詳細については RabbitMQ ドキュメントを参照してください。
Redis
Redis クラスター
| イベント | 説明 | メトリック |
|---|---|---|
| Redis クラスターの状態が不適切である。 | クラスターが不適切な状態にあります。 | cluster_state. |
Redis ノード
| イベント | 説明 | メトリック |
|---|---|---|
| メモリー割り振り分析。 | Redis サーバーにより外部メモリーのフラグメント化が引き起こされています。 | 使用メモリー (used_memory) およびメモリー・フラグメント化率 (mem_fragmentation_ratio)。 |
| Redis のヒット率が低い。 | Redis ヒット率は設定されたしきい値の通りである。 | キャッシュ・ヒット率 (hit_rate)、 キースペース・ヒット (keyspace_hits)、キースペース・ミス (keyspace_misses)、および Redis 強制削除キー (evicted_keys)。 |
| Redis メモリー使用率が最大メモリー制限に近づいている。 | Redis メモリー使用率が最大メモリー制限に近づいている。 | 使用メモリー (used_memory)。 |
| Redis が接続を拒否している。 | Redis が接続を拒否しています。 | 拒否された接続の数 (rejected_connections)。 |
| Redis スレーブ・ノードがマスター・ノードに接続できない。 | Redis スレーブ・ノードがマスター・ノードに接続できません。 | master_downtime_seconds. |
このセンサーの詳細については Redis ドキュメントを参照してください。
SAP エービーエーピー
| イベント | 説明 | メトリック |
|---|---|---|
| ロックが5分以上存在しています | ロックの競合を検出し、ロック・モードとロック・オブジェクトの詳細を提供する。 | ABAPロック競合 |
| 生成されたABAPダンプ | 生成されたABAPダンプを検出し、深刻度の詳細を提供します。 | ABAPダンプの深刻度 |
| IDoc インバウンドおよび OutBound エラーが発生しました | インバウンドとアウトバウンド両方のIDocsのエラーを検出します。 | インバウンドIDocエラーとアウトバウンドIDocエラー |
| バックグラウンドジョブが中断またはキャンセルされる | バックグラウンドジョブが中断またはキャンセルされたかどうかを検出します。 | バックグラウンドジョブが中断またはキャンセルされる |
| 高いCPU使用率が検出された | CPU使用率が90%以上かどうかを検出する。 | 高い CPU 使用率 |
| 高いメモリ使用量が検出された | メモリ使用率が90%以上かどうかを検出する。 | 高いメモリ使用量 |
| 作業プロセスが停止中、シャットダウン中、または PRIV モード(プライベート)が検出された | 作業プロセスがPRIVモード(プライベート)か、停止中か、シャットダウン中かを検出する。 | ワーク・プロセス・ステータス |
| 保留中の作業プロセスが閾値を超えた | 保留中の作業プロセス数が5を超えたかどうかを検出する。 | ワーク・プロセス・ステータス |
| ファイルシステムの使用量がしきい値を超えた | ファイルシステムの使用率がしきい値の80%を超えたかどうかを検出する。 | ファイル・システム使用量 |
| 接続の問題が検出された | 不正なユーザー名、パスワード、ゲートウェイの障害、または不正なログイン試行を検出します。 | 接続状況 |
| 認証漏れが検出された | ユーザが機能モジュールを実行する権限がないかどうかを検出します。 | 許可検査 |
| ユーザーアカウントのロックが検出された | ログイン失敗によりユーザーアカウントがロックされているかどうかを検出する。 | ユーザーアカウントロック |
| スプールエラーを検出 | スプールエラーを検出する。 | スプール・エラー |
| ダイアログの応答時間がしきい値を超える | ダイアログの応答時間が優先閾値を超えたかどうかを検出する。 | ダイアログ応答時間 |
| 閾値を超える対話作業プロセス | ダイアログ作業プロセスが10秒以上実行されているかどうかを検出します。 | ダイアログ作業プロセス |
| データベースの待ち時間がしきい値を超える | データベースの平均待ち時間が5秒を超えたかどうかを検出します。 | データベース待ち時間 |
| トランスポート・リクエストのリリースを検出 | トランスポート要求が解放されているか保護されているかを検出する。 | トランスポート要求 |
| バックグラウンドでの作業時間が6時間を超える | バックグラウンドジョブが6時間以内に完了しなかった場合に検出される。 | バックグラウンド・ジョブ |
| Webサービスの呼び出し時間が10分を超えました | Webサービス呼び出し(クライアントまたは宛先)が10分以内に完了しない場合を検出します。 | Webサービス呼び出し |
このセンサーの詳細については、 SAP ABAP を参照してください。
SAP Java NetWeaver
| イベント | 説明 | メトリック |
|---|---|---|
| 高いCPU使用率が検出された | CPU使用率が90%以上かどうかを検出する。 | 高い CPU 使用率 |
| 高いメモリ使用量が検出された | メモリ使用率が90%以上かどうかを検出する。 | 高いメモリ使用量 |
| ディスク使用量が多い | ディスク使用率が90%以上かどうかを検出する。 | ディスク使用量が多くなっています |
| 認証エラーが検出された | ユーザー名またはパスワードの誤りによる認証失敗を検出する。 | 認証の失敗 |
| 認証エラーが検出された | ユーザーに JMXManageAll アクションが割り当てられていないことに起因する認可の失敗を検出する。 | 許可が失敗した |
| 接続タイムアウトが検出された | 接続タイムアウトまたはネットワーク関連の問題を検出します。 | 接続タイムアウトが検出された |
| システム負荷が高い | システム負荷の平均が90%より大きいかどうかを検出する。 | 高いシステム負荷の使用 |
| GCの問題を検出 | ガベージコレクション(GC)の問題を検出する。 | GCの問題を検出 |
| システムの問題が検出された | システムの問題を検出します。 | システムの問題が検出された |
| HTTP スレッド使用率の高さを検出 | アクティブな HTTP スレッド数が設定されたプール・サイズに達したかどうかを検出する。 | HTTP スレッド使用率が高い |
このセンサーの詳細については、 SAP Java Netweaver を参照してください。
SAP HANA
| イベント | 説明 | メトリック |
|---|---|---|
| 高いCPU使用率 | CPU使用率の合計が90%を超えたかどうかを検出する | 合計 CPU 使用率 |
| HANAのメモリ使用量が多い | 使用メモリが割り当てられた制限の90%を超えたかどうかを検出する | HANAメモリー使用量 |
| ホストメモリの使用量が多い | ホストのメモリ使用量が90%を超えたかどうかを検出する | ホスト・メモリー使用量 |
| ディスク使用量が多くなっています | ディスクの使用率が90%を超えたかどうかを検出します | ディスク使用の要約 |
| キューイング接続数が多い | キューイング接続が1つ以上かどうかを検出する | 接続数 |
| ブロックされたセッション数が多い | ブロックされたセッションが1つ以上かどうかを検出する | セッション数 |
| ブロックセッション数が多い | ブロックしているセッションが複数あるかどうかを検出する | セッション数 |
| ブロックされたスレッドの数が多い | ブロックされたスレッドが10以上かどうかを検出する | スレッド数 |
| ブロックされたSQLスレッドの数が多い | ブロックされた SQL スレッドが 10 以上かどうかを検出します | SQLスレッド |
| ブロックされたジョブワーカースレッドの数が多い | ブロックされたジョブのワーカースレッドが10以上かどうかを検出します | ジョブ・ワーカー・スレッド |
| 保留中のリクエスト数が多い | 保留中のリクエストが10個以上かどうかを検出する | 要求 |
| 高プロセスCPU | プロセスのCPUのいずれかが90%を超えたかどうかを検出する | サービスの詳細 |
| サービス・ステータスがアクティブでない | サービスステータスがアクティブでないことを検出 | サービスの詳細 |
| バックアップが失敗しました | 最新の失敗したバックアップを検出する | 最新のバックアップ |
| ユーザーロックが発生 | ユーザーロックの検出 | ユーザー・ロック |
| スケジュールされたジョブが失敗した | 失敗したスケジュールジョブの検出 | スケジュールされたジョブ |
| システムイベント発生 | システムイベントの検出 | システム・イベント |
| アーカイブログバックアップの失敗 | ログバックアップの失敗を検出 | すべてのバックアップ |
| トランザクションはアクティブではありません | 部分的なアボートとアボートされたトランザクションの検出 | 取引統計 |
| ブロックされたトランザクション | トランザクションがブロックされているかどうかを検出 | ブロックされたトランザクション |
SAP HANA センサーの詳細については、 「 SAP HANA の監視」 を参照してください。
サービス
| イベント | 説明 | メトリック |
|---|---|---|
| 呼び出し数が減少してゼロになった。 | 過去 30 分の値と比較して、呼び出し数 KPI メトリックが急激に減少してゼロになったこと (実質的にサービスがこれ以上呼びだされなくなったこと) を検出します。 また、呼の低下の大きさは、以下のように、相対的および絶対的な閾値パラメーターを超える必要がある。 | 呼び出し数/秒 (count)。 |
| エラー率が高すぎる。 | 過去 4 分以内の平均エラー数 KPI が指定のしきい値を上回ったときに、一貫して高いエラー率を検出します。 | エラー率 (error_rate)。 |
| エラー率が増加傾向にある。 | 指定のメトリックが増加傾向にあるかどうかを確認します。 このルールは、指定のメトリックでの弱い単調な増加を検出するように調整されています。 ただし、検出機能は厳密ではなく、傾向候補内でのメトリック値の特定量の減少が許容されます。 | エラー率 (error_rate)。 |
| 呼び出し数が突然減少する。 | 過去 30 分の値と比較して、呼び出し数 KPI メトリックの値が急激に減少したことを検出します。 また、呼の低下の大きさは、以下のように、相対的および絶対的な閾値パラメーターを超える必要がある。 | 呼び出し数/秒 (count)。 |
| エラー率が突然増加する。 | 過去 10 分間の KPI 値と比較して、エラー数 KPI の値が急激に増加したことを検出します。 また、誤差の増加の大きさは、以下のように相対的および絶対的な閾値パラメーターを超える必要がある。 | エラー率 (error_rate)。 |
| 待ち時間が突然増加する。 | 過去 30 分間の KPI 値と比較して、指定の待ち時間 KPI パーセンタイルが急激に増加したことを検出します。 また、誤差の増加の大きさは、以下のように相対的および絶対的な閾値パラメーターを超える必要がある。 | 待ち時間 50 パーセンタイル (duration.50th)。 |
| 一部の要求の待ち時間が突然増加する。 | 過去 30 分間の KPI 値と比較して、指定の待ち時間 KPI パーセンタイルが急激に増加したことを検出します。 また、誤差の増加の大きさは、以下のように相対的および絶対的な閾値パラメーターを超える必要がある。 | 待ち時間 99 パーセンタイル (duration.99th)。 |
Solr
Solr Cloud クラスター
| イベント | 説明 | メトリック |
|---|---|---|
| 到達不可能な Solr ノード。 | 1 つ以上のノードが停止しています。 | unreachableNodes. |
Solr ノード
| イベント | 説明 | メトリック |
|---|---|---|
| Solr のキャッシュ・ヒット率が低い。 | Solrキャッシュのヒット率は、直近1分間で以下のように80%となっている。おそらく、大量に退避しているか、クライアントが間違ったデータをクエリしていることが原因であろう。 | Solr のヒット率 (hitratio) および Solr 強制削除。 |
このセンサーの詳細については、 Apache Solr ドキュメントを参照してください。
Spark
Spark アプリケーション
| イベント | 説明 | メトリック |
|---|---|---|
| エグゼキューターでの失敗タスク。 | エグゼキューターでの失敗タスクの数が、構成されているしきい値を超えています。 | Spark アプリケーション失敗タスク。 |
| スケジューリングの遅延が長い。 | スケジューリングの遅延が急速に増加しているか、または長すぎます。 | スケジューリングの遅延 (schedulingDelay)。 |
Spark Standalone
| イベント | 説明 | メトリック |
|---|---|---|
| ドライバーでエラーが発生した。 | エラーが発生したドライバーの数が、構成されているしきい値を超えました。 | エラーが発生したドライバーの数 (drivers.failed)。 |
| Spark Standalone マスターがデッド・ワーカーを報告している。 | デッド・ワーカーの数が。構成されているしきい値を超えました。 | デッド・ワーカー (workers.deadWorkers)。 |
| Spark Standalone マスターが不明な状態のワーカーを報告している。 | 不明な状態のワーカーの数が、構成されているしきい値を超えています。 | |
| 実行依頼されたアプリケーションが失敗した。 | 失敗したアプリケーションの数が、構成されているしきい値を超えています。 | 不明な状態のワーカー (workers.workersInUnknownState)。 |
このセンサーの詳細については、ドキュメント Apache Spark を参照してください。
Spring Boot アプリケーション
| イベント | 説明 | メトリック |
|---|---|---|
| アクティブなセッションの数が最大数に達した。 | 処理パイプラインは、指定の時間枠内での SpringBoot アプリケーションのアクティブな接続の数を検出します。 アクティブなセッションの数がしきい値を上回っているかどうかを検証します。 | アクティブなセッション (metrics.httpsessions.active)。 |
| Spring Boot アプリケーションが停止している。 | SpringBoot アプリケーションの状況をモニターします。 | SpringBoot アプリケーションの状況 (metrics.status)。 |
このセンサーの詳細については、ドキュメント Spring Boot を参照してください。
Sybase Server
| イベント | 説明 | メトリック |
|---|---|---|
| 使用可能なサーバー接続が制限に達している。 | 接続の数が、サーバーあたりの接続数制限の 100% に近づいています。 | 接続 (stats.connCount)。 |
| データベースの最大数が制限に達している。 | データベースの数が、サーバーあたりのデータベース数制限の 100% に近づいています。 | databasesCount. |
SAP SQL Anywhere センサーの詳細については、 「 SAP SQL Anywhere の監視」 を参照してください。
合成 PoP
| イベント | 説明 | メトリック |
|---|---|---|
| シンセティック・ポップ・ステータス | Synthetic PoP が Instana バックエンドに接続できるかどうかを確認する | 合成樹脂の現状 PoP (status) |
| 再生エンジンの状態 | 再生エンジンに負荷がかかっていないか確認する。 | 再生エンジン browserscript.workloadStatus、 http.workloadStatus、 javascript.workloadStatus、 ism.workloadStatus のワークロード状況。 |
| 認証情報の取得に失敗しました | Instana バックエンドから Synthetic crendentials を取得できませんでした。 | pop_get_cred_failed (error.pop_get_cred_failed) のエラーコードと URL. |
| テストの取得に失敗 | Instana バックエンドから Synthetic テストを取得できませんでした。 | pop_get_test_failed (error.pop_get_test_failed) のエラーコードと URL です。 |
| テスト結果の報告に失敗 | 合成テスト結果を Instana バックエンドに投稿できませんでした。 | pop_report_result_failed(error.pop_report_result_failed) のエラーコードと URL です。 |
| テスト結果の詳細の報告に失敗 | 合成テスト結果の詳細を Instana バックエンドに投稿できませんでした。 | pop_report_result_details_failed (error.pop_report_result_details_failed) のエラーコードと URL です。 |
| レポート結果のキューの深さが高い | 結果キューの深さが高いかどうかを検出する | ResultQueueDepthHigh (resultQueueDepthHigh). |
このセンサーの詳細については、 Synthetic PoP ドキュメントを参照してください。
TIBCO EMS
| イベント | 説明 | メトリック |
|---|---|---|
| 接続数が使用可能な接続の最大数を超えている。 | 最大数の接続がほぼ使い果たされています。 | 接続数 (connectionCount)。 |
| メッセージ・メモリーの使用率が制限を超えている。 | 最大メッセージ・メモリーがほぼ使い果たされています。 | メッセージ・メモリー (messagesMemory)。 |
| キューの保留メッセージの数が制限を超えている。 | キューの保留メッセージの最大数がほぼ使い果たされています。 | キューの保留メッセージの使用率。 |
| トピックの保留メッセージの数が制限を超えている。 | トピックの保留メッセージの最大数がほぼ使い果たされています。 | トピックの保留メッセージの使用率。 |
このセンサーの詳細については、 TIBCO EMS のドキュメントを参照してください。
Tomcat
| イベント | 説明 | メトリック |
|---|---|---|
| アクティブな接続の数が最大数に達した。 | 特定コネクターの接続数が、構成されている最大値に達しているかどうかを確認します。 | コネクター接続数。 |
| セッション数が突然減少する。 | セッション数が大幅に低下していることを確認します。 | 合計セッション数 (totalSessionCount)。 |
| セッション数が突然増加する。 | セッション数が大幅に増加したことを確認します。 | 合計セッション数 (totalSessionCount)。 |
| スレッド数が最大数に達した。 | 特定コネクターのビジー・スレッドの数が、構成されている最大値に達しているかどうかを検出します。 | コネクター・ビジー・スレッドの数。 |
このセンサーの詳細については、 Tomcatのドキュメントを参照してください。
Varnish ノード
| イベント | 説明 | メトリック |
|---|---|---|
| 要求の数が突然減少する。 | クライアント要求の数が突然減少したことを確認します。 | 受信クライアント数 (client_req)。 |
| 強制削除オブジェクト数が突然増加する。 | 強制削除オブジェクトの数が突然増加したことを確認します。 | 削除されたオブジェクト (n_lru_nuked)。 |
| スレッド作成が失敗している。 | 失敗したスレッド作成が多すぎます。 | 失敗 (threads_failed) および制限 (threads_limited)。 |
| Varnish バックエンドが異常としてマークされている。 | Varnish バックエンド・サーバーが異常であるか、または使用できません。 | 異常 (backend_unhealthy)。 |
| Varnish のヒット率が低い。 | Varnish のヒット率が非常に低くなっています。 | キャッシュ・ヒット率 (cache_hit_rate)。 |
| Varnish でワーカー・スレッドが不足しています。 | Varnish でワーカー・スレッドが不足しています。 | キューがいっぱいになったために除去された接続 (sess_dropped)。 |
このセンサーの詳細については、 Varnishのドキュメントを参照してください。
ボールト
| イベント | 説明 | メトリック |
|---|---|---|
| Vault がシールされている。 | シール状況が true に設定されているかどうかを検出します。 | シール (sealed)。 |
| シークレット読み取りが突然増加する | 読み取られたシークレットの数が突然増加したこと (過去 5 分間の平均に基づき 60% 増加) を確認します。 | シークレット読み取り数 (secret.read.count)。 |
このセンサーの詳細については、 Vault のドキュメントを参照してください。
WebLogic Server
| イベント | 説明 | メトリック |
|---|---|---|
| データ・ソースのエラー状態。 | 処理パイプラインは、WebLogicApplications データ・ソースの状況コードをモニターし、異常なデータ・ソースがあるかどうかを確認します。 | WebLogic データ・ソースの状況。 |
| 正常性の状態 | 報告された正常性の状態に基づいて、システム全体の劣化を検出します。 | 正常性状態の状況。 |
このセンサーの詳細については、ドキュメント WebLogic を参照してください。
WebSphere
| イベント | 説明 | メトリック |
|---|---|---|
| WebContainer スレッド・プールのアクティブ・スレッドの数が最大値に達した。 | 処理パイプラインは、WebContainer スレッド・プールのアクティブ・スレッドの数が最大制限に近づいているかどうかを検証します。 | アクティブ・スレッド (threadPools.webContainer.activeThreads)。 |
| WebSphere 証明書の有効期限が迫っている。 | 証明書の有効期限までの残り日数がしきい値未満である。 | 満期までの残り日数 (certificates.{certificate}.expDaysLeft) |
このセンサーの詳細については、ドキュメント WebSphere Application Server を参照してください。
ZooKeeper
| イベント | 説明 | メトリック |
|---|---|---|
| 最大要求待ち時間が長い。 | 処理パイプラインは、最大要求待ち時間がしきい値に達したかどうかを確認します。 | 最大要求待ち時間 (max_request_latency)。 |
| キューに入れられている要求の数が多い。 | 処理パイプラインは、キューに入れられている要求の数を検出し、この数がしきい値に達しているかどうかを検証します。 | 未処理要求の数 (outstanding_requests)。 |
このセンサーの詳細については、ドキュメント ZooKeeper を参照してください。