Hadoop이란 무엇인가요?| IBM

홈

topics

Hadoop

Apache Hadoop이란 무엇인가요?

IBM의 Hadoop 솔루션 살펴보기

AI 업데이트 구독

구름 픽토그램, 파이 차트, 그래프 픽토그램이 콜라주된 일러스트

Apache Hadoop이란 무엇인가요?

Apache Hadoop은 Douglas Cutting(당시 Yahoo)이 개발한 오픈 소스 소프트웨어 프레임워크로, 간단한 프로그래밍 모델을 사용하여 대규모 데이터 세트를 매우 안정적으로 분산 처리합니다.

Hadoop은 Nutch의 확장성 한계를 극복하고 상용 컴퓨터 클러스터를 기반으로 구축되어 형식 요구 사항 없이 대량의 정형, 반정형 및 비정형 데이터를 저장하고 처리할 수 있는 비용 효율적인 솔루션을 제공합니다.

Hadoop을 포함한 데이터 레이크 아키텍처는 빅 데이터 분석 이니셔티브를 위한 유연한 데이터 관리 솔루션을 제공합니다. Hadoop은 오픈 소스 프로젝트이고 분산 컴퓨팅 모델을 따르기 때문에 빅 데이터 소프트웨어 및 스토리지 솔루션에 대해 예산을 절감할 수 있는 가격을 제공할 수 있습니다.

또한, Hadoop은 빅 데이터에 필요한 컴퓨팅 및 스토리지 리소스를 더 효과적으로 관리하기 위해 클라우드 서버에 설치할 수도 있습니다. 편의를 위해 Linux OS 에이전트, UNIX OS 에이전트 및 Windows OS 에이전트가 사전 구성되어 있으며 자동으로 시작할 수 있습니다. AWS(Amazon Web Services) 및 Microsoft Azure와 같은 선도적인 클라우드 공급업체가 이러한 솔루션을 제공합니다. Cloudera는 여러 공급업체에서 하나 이상의 퍼블릭 클라우드 환경에 대한 옵션을 포함하여 온프레미스와 클라우드 모두에 대해 Hadoop을 워크로드를 지원합니다. Hadoop 모니터링 API를 사용하여 클러스터의 클러스터 및 서비스를 추가, 업데이트, 삭제 및 볼 수 있으며 Hadoop에서 다른 모든 유형의 모니터링을 수행할 수 있습니다.

AI를 위한 데이터 저장소

AI 확장을 위한 개선 및 비용 최적화 기회 등의 데이터 레이크하우스 전략을 데이터 아키텍처에 통합하는 것의 이점을 살펴보세요.

관련 내용

AI 거버넌스 백서 등록

Hadoop 에코시스템

Hadoop은 Apache Software Foundation이 개발했으며, 다음이 포함됩니다.

Hadoop Common: 다른 Hadoop 모듈을 지원하는 공통 유틸리티 및 라이브러리입니다. Hadoop Core라고도 합니다.
Hadoop HDFS(Hadoop 분산 파일 시스템): 상용 하드웨어의 애플리케이션 데이터를 저장하기 위한 분산 파일 시스템입니다. HDFS는 Hadoop에 내결함성을 제공하도록 설계되었으며 높은 집계 데이터 대역폭과 높은 처리량의 데이터 액세스를 제공합니다. 기본적으로 데이터 블록은 로드 또는 쓰기 시 여러 노드에 복제됩니다. 복제 정도는 구성할 수 있으며 기본 복제는 3입니다. HDFS 아키텍처에는 파일 시스템 네임 스페이스와 파일 액세스를 관리하기 위한 NameNode와 데이터 스토리지를 관리하기 위한 다수의 DataNode가 있습니다.

고가용성을 활성화하면 활성 노드가 다운될 때 보조 노드를 사용할 수 있습니다.
^{Hadoop YARN: 오픈 소스 Apache Hadoop YARN은} IBM Spectrum Symphony on Linus 및 Linux on POWER와 함께 사용할 수 있는 작업 스케줄링 및 클러스터 리소스 관리를 위한 프레임워크입니다. YARN은 "Yet Another Resource Negotiator"의 약자입니다. 이는 인터랙티브 SQL, 고급 모델링 및 실시간 스트리밍 등 더 많은 기능을 지원합니다.
Hadoop MapReduce: 대용량 데이터의 병렬 처리를 위해 여러 소스와 성능에 데이터를 저장하는 YARN 기반 시스템입니다. MapReduce에서는 작업 속도를 높이기 위해 다양한 최적화 기술을 사용할 수 있습니다.
Hadoop Ozone: 빅 데이터 애플리케이션을 위해 설계된 확장 가능한 이중화 및 분산 오브젝트 저장소입니다.

Apache 프로젝트 지원하기

추가적인 오픈 소스 소프트웨어 프로젝트를 통해 Hadoop을 개선합니다.

Ambari

Hadoop 클러스터를 프로비전, 관리 및 모니터링하기 위한 웹 기반 도구입니다.

Avro

데이터 직렬화 시스템입니다.

Avro에 대해 알아보기

Cassandra

단일 장애 지점이 없도록 설계된 확장 가능한 NoSQL 데이터베이스입니다.

Chukwa

대규모 분산 시스템을 모니터링하기 위한 데이터 수집 시스템으로 HDFS 및 MapReduce 위에 구축되었습니다.

Flume

대규모 스트리밍 데이터를 수집, 집계 및 HDFS로 이동하는 서비스입니다.

HBase

아주 대규모 테이블에 대한 구조적 데이터 스토리지를 지원하는 확장 가능한 비관계형 분산 데이터베이스입니다.

Apache HBase에 대해 알아보기

Hive

SQL과 유사한 인터페이스에서 데이터 쿼리, 테이블용 메타데이터 스토리지 및 분석을 하기 위한 데이터 웨어하우스 인프라입니다.

Apache Hive에 대해 알아보기

Mahout

확장 가능한 머신 러닝 및 데이터 마이닝 라이브러리입니다.

Oozie

Hadoop 작업을 관리하기 위한 Java 기반 워크로드 스케줄러입니다.

Pig

병렬 계산을 위한 고급 데이터 흐름 언어 및 실행 프레임워크입니다.

Apache Pig에 대해 알아보기

Sqoop

Hadoop과 관계형 데이터베이스와 같은 구조화 데이터 저장 간 데이터를 효율적으로 전송하기 위한 툴입니다.

Submarine

분산 클러스터에서 머신 러닝과 딥 러닝 워크로드를 실행하기 위한 통합 AI 플랫폼입니다.

Tez

YARN을 기반으로 한 일반화 된 데이터 흐름 프로그래밍 프레임워크이며, MapReduce를 대체하기 위해 Hadoop 에코시스템 내에서 채택되고 있습니다.

ZooKeeper

분산 애플리케이션을 위한 고성능 조정 서비스입니다.

개발자를 위한 Hadoop

Apache Hadoop은 Java로 작성되었지만 빅 데이터 프로젝트에 따라 개발자는 Python, R 또는 Scala와 같은 원하는 언어로 프로그래밍할 수 있습니다. 개발자는 포함되어 있는 Hadoop Streaming 유틸리티를 사용하여 매퍼 또는 리듀서와 같은 스크립트나 실행 파일로 MapReduce 작업을 생성하고 실행할 수 있습니다.

Spark와 Hadoop 비교

Apache Spark도 빅 데이터 처리를 위한 오픈 소스 프레임워크이기 때문에 Hadoop과 비교되는 경우가 많습니다.실제로 Spark는 최초에 처리 성능을 개선하고, Hadoop MapReduce로 가능한 계산 유형을 확장하기 위해 개발되었습니다. Spark는 인메모리 프로세싱을 사용하기 때문에 MapReduce의 읽기/쓰기 기능보다 훨씬 빠릅니다.

Hadoop이 대규모 데이터를 일괄 처리하는 데 최적이지만, Spark는 일괄 처리 및 실시간 데이터 처리를 모두 지원하며, 스트리밍 데이터 및 그래프 계산에 이상적입니다. Hadoop과 Spark 모두 머신 러닝 라이브러리를 보유하고 있지만, Spark 머신 러닝은 인메모리 처리를 하기 때문에 훨씬 빠릅니다.

Apache Spark에 대해 알아보기

Hadoop 사용 사례

데이터 기반의 향상된 의사 결정: 실시간 데이터(스트리밍 오디오, 비디오, 소셜 미디어 감정 및 클릭스트림 데이터) 및 데이터 웨어하우스 또는 관계형 데이터베이스에서 사용되지 않는 기타 반정형 및 비정형 데이터를 통합합니다. 보다 포괄적인 데이터로 더욱 정확한 결정을 제공합니다.

향상된 데이터 액세스 및 분석: 데이터 과학자, 비즈니스 종목 소유자 및 개발자를 위한 실시간의 셀프 서비스 액세스를 주도합니다. Hadoop은 패턴을 찾아내고 예측을 구성하는 고급 분석을 위해 데이터, 알고리즘, 머신 러닝 및 AI를 사용하는 데이터 과학 및 학제 간 분야를 촉진할 수 있습니다.

데이터 오프로드 및 통합: 현재 사용되지 않는 "콜드" 데이터를 스토리지용 Hadoop 기반 배포로 이동하여 엔터프라이즈 데이터 센터의 비용을 간소화합니다. 또는 조직 전체의 데이터를 통합하여 접근성을 높이고 비용을 절감할 수 있습니다.

관련 솔루션

IBM 및 Cloudera

오늘날의 AI를 위한 예측 모델과 처방 모델을 지원합니다. Cloudera의 엔터프라이즈급 Hadoop 분산을 IBM 및 Cloudera의 통합 제품 및 서비스로 구성된 단일 에코시스템과 결합하여 데이터 디스커버리, 테스트, 애드 혹 및 실시간에 가까운 쿼리를 개선합니다. IBM과 Cloudera 간 협업을 활용하여 엔터프라이즈 Hadoop 솔루션을 제공합니다.

IBM 및 Cloudera 살펴보기

IBM Db2 Big SQL

ANSI 규정을 준수하는 엔터프라이즈급 하이브리드 SQL-on-Hadoop 엔진을 사용하여 대규모 병렬 처리(MPP) 및 고급 데이터 쿼리 기능을 제공합니다.

Db2 Big SQL 살펴보기

IBM Big Replicate

전송 전에 파일을 완전히 쓰거나 닫을 필요가 없도록 스트리밍하면서 데이터를 복제합니다.

Big Replicate 살펴보기

오픈 소스 데이터베이스

MongoDB 및 EDB와 같은 주요 공급업체의 오픈 소스 데이터베이스를 사용하여 빅 데이터에 대해 보다 비용 효과적으로 활용하십시오.

오픈 소스 데이터베이스 살펴보기

리소스

IBM + Cloudera

엔터프라이즈급의 안전하고 관리형 오픈 소스 기반의 데이터 레이크로 고급 분석을 추진하는 방법에 대해 알아보십시오.

더 많은 데이터 연결하기

데이터 레이크를 데이터 관리 전략에 추가하여 심층적인 인사이트를 위해 더 많은 비정형 데이터를 통합하십시오.

AI를 위한 강력한 관리형 데이터 레이크

AI에 대한 준비가 완료된 데이터를 제공하기 위해 데이터 레이크에 필요한 스토리지와 거버넌스 기술을 살펴보십시오.

데이터 레이크 거버넌스

입증된 거버넌스 솔루션이 어떻게 데이터 레이크에 대한 더 나은 데이터 통합, 품질 및 보안을 달성할 수 있는지 알아보십시오.

빅 데이터 분석 과정

숙련도에 따라 데이터 과학, AI, 빅 데이터 등에 대한 무료 과정에서 교육 경로를 선택하십시오.

오픈 소스 커뮤니티

협업, 리소스 등을 위한 오픈 소스 데이터 관리에 대한 IBM 커뮤니티에 참여하세요.

다음 단계 안내

오픈 데이터 레이크하우스 아키텍처를 기반으로 특별 제작된 데이터 저장소인 IBM watsonx.data를 통해 어디서나 모든 데이터에 대한 AI 워크로드를 확장할 수 있습니다.

watsonx.data 살펴보기

라이브 데모 예약하기