고성능 Spark: Apache Spark 확장 및 최적화 모범 사례
Apache Spark
Apache Spark 모니터링 및 성능 관리

Apache Spark는 빅데이터와 심층 분석을 위한 빠른 데이터 처리 툴을 제공하는 가장 큰 오픈 소스 데이터 처리 프로젝트입니다. Instana의 Apache Spark 모니터링에는 AWS EMR을 통해 배포된 Spark를 모니터링하는 기능이 포함되어 있지만, Spark 독립형 클러스터 관리자도 모니터링할 수 있습니다. Spark 성능 모니터링은 Spark Driver 인스턴스 모니터링을 중심으로 이루어집니다. Instana의 Spark 모니터링 센서는 두 가지 드라이버 배포 방법을 모두 지원합니다.

오늘 무료 평가판을 시작하세요!

14일 무료, 신용 카드 필요 없음, 정식 버전

Spark 성능 및 상태 모니터링

배포된 애플리케이션의 유형(EMR, Standalone)에 따라 다른 데이터가 수집되어 모니터링에 사용됩니다.

Spark 성능 및 구성 모니터링

AWS EMR에서 실행되는 Spark 인스턴스의 경우, EMR 클러스터가 있는 Amazon EC2 인스턴스에 Instana 에이전트를 설치합니다. Spark 모니터링 센서의 자동 배포를 원하는 경우 EMR 클러스터의 모든 노드에 Instana 에이전트를 배치해야 합니다.

Instana의 Spark 모니터링에는 응답 시간 및 부하를 비롯한 애플리케이션 KPI를 중심으로 자동으로 구축된 요약 대시보드가 포함되어 있습니다. 대시보드에는 주요 인프라 구성 및 성능 메트릭과 특정 Spark 처리 데이터 메트릭도 포함됩니다. 대시보드를 통해 개발팀과 IT 운영팀은 한 화면에서 모든 관련 Spark 데이터를 볼 수 있으므로 Spark 인스턴스의 상태를 쉽게 파악할 수 있습니다.

Apache Spark 인스턴스의 상태와 성능을 모니터링하려면 Spark 자체에 대한 이해뿐만 아니라 클러스터된 스파크 인스턴스 간의 상호 작용과 종속성, 그리고 다른 마이크로서비스(업스트림 및 다운스트림 모두)와의 상호 작용을 볼 수 있는 능력이 필요합니다. Instana의 Spark 모니터링 센서는 관련 메트릭을 자동으로 식별하고 수집합니다.

Spark 모니터링 데이터

 

배치 애플리케이션

  • 작업
  • 단계
  • 가장 오래 완료된 단계
  • 실행자

    스트리밍 애플리케이션

    • 일괄 처리
    • 예약 지연
    • 총 지연 시간
    • 처리 시간
    • 출력 작업
    • 입력 레코드
    • 수신기
    • 실행자

      구성

      • 호스트
      • 포트
      • 휴지 URI
      • 버전
      • 상태

        메트릭

        • 활성 작업자
        • 비활성 작업자
        • 폐기된 작업자
        • 알 수 없는 상태의 작업자
        • 사용된 메모리
        • 총 메모리
        • 사용한 코어 수
        • 총 코어 수
        • 작업자별 데이터 및 메트릭
        • 최신 앱
        • 최신 드라이버
          Spark 모니터링 센서 설치: 시작하기

          Spark 모니터링을 시작할 준비가 되셨나요? 무료 Instana 평가판에 가입하여 시작하세요. 계정을 생성한 후 Spark 관리 설명서에서 다양한 Spark 드라이버 및 배포 유형을 구성하는 방법에 대한 자세한 내용을 참조하세요.

          무료 평가판 시작 Spark 관리 설명서