Optimisation des performances de Spark – Bonnes pratiques pour mettre à l’échelle et optimiser Apache Spark
Apache Spark
Apache Spark Monitoring et gestion des performances

Apache Spark est le plus grand projet de traitement de données open source. Il offre un outil de traitement rapide des données pour les big data et des analyses approfondies. Apache Spark Monitoring d’Instana permet de contrôler Spark déployé avec AWS EMR, mais peut également contrôler le gestionnaire de groupes autonome de Spark. L’analyse des performances de Spark repose sur le contrôle de l’instance Spark Driver. Le Spark Monitoring Sensor d’Instana prend en charge les deux méthodes de déploiement du Driver.

Profitez d'un ESSAI GRATUIT !

14 jours, version complète, aucunes données bancaires requises

Contrôle des performances et de l’état de santé de Spark

Selon le type d’application qui a été déployé (EMR, autonome), différentes données sont collectées et utilisées pour le contrôle.

Contrôle des performances et de la configuration de Spark

Pour les instances Spark exécutées sur AWS EMR, installez l’agent Instana sur les instances Amazon EC2 à l’aide du cluster EMR. Si vous souhaitez un déploiement automatisé du Spark Monitoring Sensor, l’agent Instana doit être placé sur tous les nœuds du cluster EMR.

Spark Monitoring d’Instana inclut un tableau de bord récapitulatif créé automatiquement qui se concentre sur les KPI de l’application, avec notamment le temps de réponse et la charge. Le tableau de bord comprend également des informations sur la configuration de l’infrastructure et des mesures clés de performance, ainsi que des mesures spécifiques des données de traitement de Spark. Le tableau de bord permet aux opérateurs (DevOps et informatique) de voir toutes les données Spark pertinentes sur un seul écran, ce qui facilite la compréhension de l’état de leurs instances Spark.

Le contrôle de la santé et des performances des instances Apache Spark nécessite à la fois une compréhension de Spark et la possibilité de voir les interactions et les dépendances entre les instances Spark clusterisées et les interactions avec d’autres microservices (en amont et en aval). Le Spark Monitoring Sensor d’Instana identifie et collecte automatiquement ces mesures pertinentes.

Données Spark Monitoring

 

Applications par lots

  • Offres d’emploi
  • Étapes
  • Étapes terminées les plus longues
  • Programmes d’exécution

    Applications de streaming

    • Création de lots
    • Retard de programmation
    • Retard total
    • Temps de traitement
    • Opérations de sortie
    • Enregistrements d’entrées
    • Destinataires
    • Programmes d’exécution

      Configuration

      • Hôte
      • Port
      • URI de repos
      • Version
      • Statut

        Indicateurs

        • Workers vivants
        • Workers morts
        • Workers déclassés
        • Workers dans un état inconnu
        • Mémoire utilisée
        • Mémoire totale
        • Mémoires système usagées
        • Total des mémoires système
        • Données et mesures par worker
        • Applications les plus récentes
        • Drivers les plus récents
          Installation de Spark Monitoring Sensor – Démarrage

          Vous souhaitez contrôler Spark dès à présent ? Commencez par vous inscrire pour bénéficier d’un essai gratuit d’Instana. Une fois que vous aurez créé votre compte, cliquez sur la documentation pour la gestion de Spark pour en savoir plus sur la configuration de différents types de drivers et de déploiements Spark.

          Commencez votre essai gratuit Documentation pour la gestion de Spark