High Performance Spark: Best Practices for Scaling and Optimizing Apache Spark
Apache Spark
Monitoraggio e gestione delle prestazioni di Apache Spark

Apache Spark è il più grande progetto di elaborazione dati open source, che offre uno strumento per l'elaborazione rapida dei big data e per l'analitica approfondita. Il monitoraggio Apache Spark di Instana include la possibilità di monitorare Spark distribuito tramite AWS EMR, ma può anche monitorare Spark Standalone Cluster Manager. Il monitoraggio delle prestazioni di Spark ruota intorno al monitoraggio dell'istanza del driver di Spark. Il sensore di monitoraggio Spark di Instana supporta entrambi i metodi di distribuzione del driver.

Inizia la tua PROVA GRATUITA oggi!

14 giorni, nessuna carta di credito, versione completa

Monitoraggio delle prestazioni e dello stato di Spark

A seconda del tipo di applicazione distribuita (EMR, standalone), vengono raccolti e utilizzati diversi dati per il monitoraggio.

Monitoraggio delle prestazioni e della configurazione di Spark

Per le istanze di Spark in esecuzione su AWS EMR, installa l'agente Instana sulle istanze Amazon EC2 all'interno del cluster EMR. Se desideri una distribuzione automatizzata del sensore di monitoraggio Spark, l'agente Instana deve essere posizionato su tutti i nodi nel cluster EMR.

Il monitoraggio Spark di Instana include un dashboard di riepilogo creato automaticamente centrato sui KPI dell'applicazione, comprensivo di tempo di risposta e carico. Il dashboard comprende inoltre metriche chiave della configurazione e delle prestazioni dell'infrastruttura, oltre a metriche specifiche dei dati di elaborazione di Spark. Il dashboard consente a DevOps e IT Ops di visualizzare tutti i dati di Spark pertinenti su un'unica schermata, semplificando la comprensione dello stato delle relative istanze di Spark.

Il monitoraggio dell'integrità e delle prestazioni delle istanze di Apache Spark richiede sia la comprensione di Spark stesso, sia la capacità di visualizzare le interazioni e le dipendenze tra le istanze Spark nei cluster e le interazioni con altri microservizi (sia upstream che downstream). Il sensore di monitoraggio Spark di Instana identifica e raccoglie automaticamente le metriche pertinenti.

Dati di monitoraggio Spark

 

Applicazioni batch

  • Job
  • Stage
  • Passaggi più lunghi completati
  • Executor

    Applicazioni in streaming

    • Funzione di batch
    • Ritardo nella pianificazione
    • Ritardo totale
    • Tempo di elaborazione
    • Operazioni di output
    • Record di input
    • Destinatari
    • Executor

      Configurazione

      • Host
      • Porta
      • URI Rest
      • Versione
      • Stato

        Metriche

        • Operatori attivi
        • Operatori inattivi
        • Operatori disattivati
        • Operatori in uno stato sconosciuto
        • Memoria utilizzata
        • Memoria totale
        • Core usati
        • Core totali
        • Dati e metriche per operatore
        • App più recenti
        • Driver più recenti
          Installazione del sensore di monitoraggio Spark: guida introduttiva

          Vuoi iniziare a monitorare Spark? Inizia registrandoti per una prova gratuita di Instana. Una volta creato un account, clicca su Spark Management Documentation per visualizzare i dettagli su come configurare i diversi driver e i tipi di distribuzione di Spark.

          Avvia una versione di prova gratuita Documentazione sulla gestione di Spark