High Performance Spark:Apache Sparkのスケーリングと最適化のベストプラクティス
Apache Spark
Apache Sparkのモニタリングとパフォーマンス管理

Apache Sparkは最大のオープンソース・データ処理プロジェクトであり、ビッグデータと詳細な分析のためのファストデータ処理ツールを提供します。InstanaのApache Sparkモニタリングには、AWS EMRを通じてデプロイされたSparkをモニタリングする機能が含まれていますが、Sparkスタンドアロン・クラスター・マネージャーをモニタリングすることもできます。Sparkパフォーマンス・モニタリングは、Sparkドライバーのインスタンスのモニタリングを中心に展開します。InstanaのSparkモニタリング・センサーは、両方のドライバーのデプロイメント・メソッドをサポートしています。

今すぐ無料評価版を試す

14日間、クレジットカード不要、フルバージョンでご利用いただけます。

Sparkのパフォーマンスと健全性モニタリング

導入されているアプリケーションのタイプ(EMR、スタンドアロン)に応じて、さまざまなデータが収集され、モニタリングに使用されます。

Sparkのパフォーマンスと構成のモニタリング

AWS EMRで実行されているSparkインスタンスの場合は、EMRクラスター内のAmazon EC2インスタンスにInstanaエージェントをインストールします。Sparkモニタリング・センサーの自動デプロイメントが必要な場合は、EMRクラスター内のすべてのノードにInstanaエージェントを配置する必要があります。

InstanaのSparkモニタリングには、応答時間や負荷など、アプリケーションのKPIを中心に自動的に構築されるサマリー・ダッシュボードが含まれています。ダッシュボードには、主要なインフラストラクチャー構成とパフォーマンス・メトリックに加え、特定のSpark処理を行うデータ・メトリックも含まれています。ダッシュボードを使用すると、DevOpsとIT運用担当者は関連するすべてのSparkデータを1つの画面上で確認できるため、Sparkインスタンスの状態を容易に理解することができます。

Apache Sparkインスタンスの健全性とパフォーマンスをモニタリングするには、Spark自体の理解だけでなく、クラスタ化されたSparkインスタンス間の相互作用と依存関係、および他のマイクロサービス(上流と下流の両方)との相互作用を確認する能力も必要とされます。InstanaのSparkモニタリング・センサーは、これらの関連するメトリックを自動的に識別して収集します。

Sparkモニタリング・データ

 

バッチ・アプリケーション

  • ジョブ
  • ステージ
  • 完了した最長のステップ
  • エグゼキュータ

    ストリーミング・アプリケーション

    • バッチ処理
    • スケジュールの遅延
    • 遅延合計
    • 処理時間
    • 出力操作
    • 入力レコード
    • レシーバー
    • エグゼキュータ

      構成

      • ホスト
      • ポート
      • Rest URI
      • バージョン
      • ステータス

        メトリック

        • アライブ・ワーカー
        • デッド・ワーカー
        • デコミッション・ワーカー
        • 不明な状態のワーカー
        • 使用済みメモリ
        • 合計メモリー
        • 使用済みコア
        • 合計コア数
        • ワーカーごとのデータとメトリック
        • 最新のアプリ
        • 最新のドライバー
          sparkモニタリング・センサーのインストール:はじめに

          Sparkのモニタリングを開始する準備はできていますか?まずは Instana の無料トライアルにサインアップしてください。アカウントを開設したら、Spark管理ドキュメンテーション にアクセスして、さまざまなSparkドライバーとデプロイメント・タイプを構成する方法の詳細を確認してください。

          無料評価版を試す Spark管理ドキュメンテーション