topics 데이터 레이크하우스란? 데이터 레이크하우스란?
IBM의 데이터 레이크하우스 솔루션 살펴보기 AI 업데이트 구독
구름 픽토그램, 파이 차트, 그래프 픽토그램이 콜라주된 일러스트
데이터 레이크하우스란?

데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크 전반의 핵심 과제를 해결하여 조직에 보다 이상적인 데이터 관리 솔루션을 제공하고자 합니다. 이들은 시장에서 데이터 관리 솔루션의 차세대 진화를 대표합니다.

데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 장점을 하나의 데이터 관리 솔루션으로 병합하는 데이터 플랫폼입니다. 데이터 웨어하우스는 데이터 레이크보다 성능이 뛰어난 경향이 있지만 비용이 더 많이 들고 확장 능력이 제한될 수 있습니다. 데이터 레이크하우스는 클라우드 개체 스토리지를 활용하여 더 광범위한 데이터 유형(즉, 정형 데이터, 비정형 데이터, 반정형 데이터)을 저장함으로써 이 문제를 해결하려고 합니다. 이러한 이점을 하나의 데이터 아키텍처로 통합함으로써 데이터팀은 기계 학습과 같은 고급 분석을 완료하고 확장하기 위해 더 이상 두 개의 서로 다른 데이터 시스템을 넘나들 필요가 없으므로 데이터 처리를 가속화할 수 있습니다.

AI 거버넌스가 엔터프라이즈 인공 지능 확장을 위한 비즈니스의 필수 요소인 이유

AI 채택을 가로막는 장벽, 특히 AI 거버넌스 및 위험 관리 솔루션의 부족에 대해 알아보세요.

관련 내용

책임감 있는 AI 워크플로에 대한 eBook 등록하기

데이터 웨어하우스 vs. 데이터 레이크 vs. 데이터 레이크하우스 

데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크 모두의 문제에서 출발했기 때문에 이러한 다양한 데이터 리포지토리를 정의하고 차이점을 이해하는 것이 좋습니다.

데이터 웨어하우스

데이터 웨어하우스는 여러 소스의 원시 데이터를 중앙 저장소로 수집하고 관계형 데이터베이스 인프라로 구성합니다. 이 데이터 관리 시스템은 주로 엔터프라이즈 보고와 같은 데이터 분석 및 비즈니스 인텔리전스 애플리케이션을 지원합니다. 시스템은 ETL 프로세스를 사용하여 데이터를 추출, 변환 및 대상에 로드합니다. 그러나 비효율성과 비용, 특히 시간이 지남에 따라 데이터 소스의 수와 데이터 양이 증가함에 따라 제한됩니다.

데이터 레이크

데이터 레이크는 일반적으로 Apache Hadoop과 같은 빅데이터 플랫폼을 기반으로 구축됩니다. 저렴한 비용과 스토리지 유연성으로 유명한데, 기존 데이터 웨어하우스의 미리 정의된 스키마가 없기 때문입니다. 또한 오디오, 비디오 및 텍스트와 같은 다양한 유형의 데이터를 보관합니다. 데이터 생산자는 주로 비정형 데이터를 생성하기 때문에 더 많은 데이터 과학인공 지능(AI) 프로젝트를 가능하게 하여 조직 전체에서 더 많은 새로운 통찰력과 더 나은 의사 결정을 내릴 수 있기 때문에 이는 중요한 차이점입니다. 그러나 데이터 레이크에도 고유한 과제가 없는 것은 아닙니다. 데이터 레이크의 크기와 복잡성으로 인해 데이터 사이언티스트 및 데이터 엔지니어와 같은 더 많은 기술 리소스가 저장되는 데이터의 양을 탐색해야 할 수 있습니다. 또한 데이터 거버넌스는 이러한 시스템에서 더 다운스트림으로 구현되기 때문에 데이터 레이크는 더 많은 데이터 사일로에 노출되기 쉬운 경향이 있으며, 이는 결과적으로 데이터 늪으로 진화할 수 있습니다. 이 경우 데이터 레이크를 사용하지 못할 수 있습니다.

데이터 레이크와 데이터 웨어하우스는 일반적으로 함께 사용됩니다. 데이터 레이크는 새로운 데이터에 대한 포괄적인 시스템 역할을 하며, 데이터 웨어하우스는 이 시스템의 특정 데이터에 다운스트림 구조를 적용합니다. 그러나 신뢰할 수 있는 데이터를 제공하기 위해 이러한 시스템을 조정하는 것은 시간과 리소스 모두에서 비용이 많이 들 수 있습니다. 처리 시간이 길면 데이터 부실이 발생하고 ETL의 추가 계층은 데이터 품질에 더 많은 위험을 초래합니다.

데이터 레이크하우스

데이터 레이크하우스는 데이터 웨어하우스 및 데이터 레이크 내의 결함을 최적화하여 더 나은 데이터 관리 시스템을 형성합니다. 조직에 엔터프라이즈 데이터를 위한 빠르고 저렴한 스토리지를 제공하는 동시에 데이터 분석과 기계 학습 워크로드를 모두 지원할 수 있는 충분한 유연성을 제공합니다.

관련 솔루션

데이터 관리 솔루션

데이터 레이크 솔루션

데이터 레이크하우스의 주요 기능

앞서 언급했듯이 데이터 레이크하우스는 데이터 웨어하우징 내의 최고의 기능과 데이터 레이크 내의 가장 최적의 기능을 결합합니다. 데이터 웨어하우스의 유사한 데이터 구조를 활용하고 이를 데이터 레이크의 저렴한 스토리지 및 유연성과 결합하여 조직이 빅 데이터를 빠르고 효율적으로 저장하고 액세스하는 동시에 잠재적인 데이터 품질 문제를 완화할 수 있도록 합니다. 다양한 데이터 데이터 세트, 즉 정형 및 비정형 데이터를 모두 지원하여 비즈니스 인텔리전스 및 데이터 과학 작업 흐름의 요구 사항을 모두 충족합니다. 일반적으로 Python, R 및 고성능 SQL과 같은 프로그래밍 언어를 지원합니다.

데이터 레이크하우스는 대규모 데이터 워크로드에서 ACID 트랜잭션도 지원합니다. ACID는 원자성(atomicity), 일관성(consistency), 격리성(isolation), 내구성(durability)을 의미합니다. 이 모든 것은 데이터 무결성을 보장하기 위해 트랜잭션을 정의하는 핵심 속성입니다. 원자성은 데이터에 대한 모든 변경이 단일 작업인 것처럼 수행되는 것으로 정의할 수 있습니다. 일관성은 트랜잭션이 시작될 때와 종료될 때 데이터가 일관된 상태에 있을 때입니다. 격리는 트랜잭션의 중간 상태가 다른 트랜잭션에 보이지 않는 것을 말합니다. 결과적으로 동시에 실행되는 트랜잭션은 직렬화된 것처럼 보입니다. 내구성은 트랜잭션이 성공적으로 완료된 후 데이터 변경 내용이 유지되고 시스템 오류가 발생하더라도 실행 취소되지 않는 것입니다. 이 기능은 여러 사용자가 동시에 데이터를 읽고 쓸 때 데이터 일관성을 보장하는 데 중요합니다. 

데이터 레이크하우스 아키텍처

데이터 레이크하우스는 일반적으로 수집 레이어, 저장 레이어, 메타데이터 레이어, API 레이어, 소비 레이어의 다섯 가지 레이어로 구성됩니다. 이것이 데이터 레이크하우스의 아키텍처 패턴을 구성합니다.

수집 계층

이 첫 번째 계층은 다양한 소스에서 데이터를 수집하여 레이크하우스에 저장하고 분석할 수 있는 형식으로 변환합니다. 수집 계층은 프로토콜을 사용하여 데이터베이스 관리 시스템, NoSQL 데이터베이스, 소셜 미디어 등과 같은 내부 및 외부 소스와 연결할 수 있습니다. 이름에서 알 수 있듯이 이 계층은 데이터 수집을 담당합니다. 

스토리지 계층

이 계층에서는 정형, 비정형 및 반정형 데이터가 Parquet 또는 ORC(Optimized Row Columnar)와 같은 오픈 소스 파일 형식으로 저장됩니다. 레이크하우스의 진정한 이점은 저렴한 비용으로 모든 데이터 유형을 수용할 수 있는 시스템의 기능입니다. 

메타데이터 계층

메타데이터 계층은 데이터 레이크하우스의 기반입니다. Lake Storage의 모든 개체에 대한 메타데이터를 제공하는 통합 카탈로그로, 시스템의 데이터에 대한 정보를 구성하고 제공하는 데 도움이 됩니다. 또한 이 계층은 사용자에게 더 빠른 쿼리를 위해 ACID 트랜잭션, 파일 캐싱 및 인덱싱과 같은 관리 기능을 사용할 수 있는 기회를 제공합니다. 사용자는 이 계층 내에서 사전 정의된 스키마를 구현하여 데이터 거버넌스 및 감사 기능을 사용할 수 있습니다.

API 계층

데이터 레이크하우스는 API를 사용하여 작업 처리를 늘리고 고급 분석을 수행합니다. 특히 이 계층은 소비자 및/또는 개발자에게 추상 수준에서 TensorFlow와 같은 다양한 언어 및 라이브러리를 사용할 수 있는 기회를 제공합니다. API는 데이터 자산 소비에 최적화되어 있습니다. 

 데이터 소비 계층

데이터 레이크하우스 아키텍처의 이 마지막 계층은 클라이언트 앱과 도구를 호스팅하므로 레이크에 저장된 모든 메타데이터와 데이터에 액세스할 수 있습니다. 조직 전체의 사용자는 레이크하우스를 사용하고 비즈니스 인텔리전스 대시보드, 데이터 시각화 및 기타 기계 학습 작업과 같은 분석 작업을 수행할 수 있습니다. 

데이터 레이크하우스의 이점 

데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 최상의 기능을 결합하도록 설계되었기 때문에 사용자에게 특정한 주요 이점을 제공합니다. 여기에는 다음이 포함됩니다.

  • 데이터 중복성 감소: 단일 데이터 스토리지 시스템을 통해 간소화된 플랫폼이 모든 비즈니스 데이터 요구 사항을 수행할 수 있습니다. 또한 데이터 레이크하우스 는 데이터 파이프라인 을 통해 여러 시스템으로 이동하는 데이터의 양을 줄여 데이터 관측성을 간소화합니다.  
  • 비용 효율적: 데이터 레이크하우스는 클라우드 오브젝트 스토리지의 저렴한 비용을 활용하므로 데이터 웨어하우스에 비해 운영 비용이 상대적으로 낮습니다. 또한 데이터 레이크하우스의 하이브리드 아키텍처는 여러 데이터 스토리지 시스템을 유지 관리할 필요가 없으므로 운영 비용이 절감됩니다.  
  • 다양한 워크로드 지원: 데이터 레이크하우스는 데이터 관리 수명 주기 전반에 걸쳐 다양한 사용 사례를 처리할 수 있습니다. 또한 비즈니스 인텔리전스 및 데이터 시각화 작업 스트림 또는 더 복잡한 데이터 과학 작업 스트림을 모두 지원할 수 있습니다.
  • 거버넌스 개선:  데이터 레이크하우스 아키텍처는 데이터 레이크에 수반되는 표준 거버넌스 문제를 완화합니다. 예를 들어, 데이터가 수집되고 업로드될 때 데이터가 정의된 스키마 요구 사항을 충족하는지 확인하여 다운스트림 데이터 품질 문제를 줄일 수 있습니다.
  • 더 많은 규모: 기존 데이터 웨어하우스에서는 컴퓨팅과 스토리지가 함께 결합되어 운영 비용이 증가했습니다. 데이터 레이크하우스는 스토리지와 컴퓨팅을 분리하여 데이터 팀이 동일한 데이터 스토리지에 액세스하면서 서로 다른 애플리케이션에 대해 서로 다른 컴퓨팅 노드를 사용할 수 있도록 합니다. 그 결과 확장성과 유연성이 향상됩니다.  
  • 스트리밍 지원: 데이터 레이크하우스는 오늘날의 비즈니스와 기술을 위해 구축되었으며 많은 데이터 소스는 장치에서 직접 실시간 스트리밍을 사용합니다. 레이크하우스 시스템은 이러한 실시간 수집을 지원하며 이는 앞으로 더욱 대중화될 것입니다.  
관련 제품
데이터 레이크하우스 IBM watsonx.data

언제, 어디서나 모든 데이터에 대해 AI 워크로드를 확장하세요. IBM watsonx.data는 업계 유일의 오픈 데이터 저장소로, 여러 쿼리 엔진을 활용하여 어디에 있든 관리되는 워크로드를 실행할 수 있어 리소스 활용도를 극대화하고 비용을 절감할 수 있습니다.

IBM watsonx.data 살펴보기 대화형 데모 보기

데이터 관리 IBM Db2

데이터 보안, 확장성 및 가용성에 대한 수십 년간의 혁신을 기반으로 구축된 IBM Db2를 사용하여 어디서나 애플리케이션과 분석을 보호하고, 고성능으로 복원력을 유지합니다.

IBM Db2 살펴보기

데이터 관리 Netezza Performance Server

어디서나 사용할 수 있는 확장 가능한 통합 분석 및 인사이트를 위해 설계된 고급 클라우드 네이티브 데이터 웨어하우스입니다. 세분화되고 탄력적인 확장과 일시 중지 및 재개 기능을 갖춘 Netezza Performance Server는 대규모 엔터프라이즈 규모로 비용 및 리소스 제어 기능을 제공합니다.

Netezza Performance Server 살펴보기

데이터 레이크하우스 리소스 Data Lakehouses의 통합 복원력 관리에 필수적인 AIOps

IBM Research는 데이터 레이크하우스의 통합 접근 방식이 통합 데이터 복원성 관리를 위한 고유한 기회를 창출한다고 제안합니다.

Forrester Wave™: 분석을 위한 데이터 관리, 2023년 1분기

IBM 솔루션은 분석 환경 문제를 해결하는 기능을 제공합니다. IBM이 분석 솔루션용 데이터 관리 분야의 리더로 선정된 이유를 알아보세요.

데이터 플랫폼 트리니티: 경쟁적인가 보완적인가?

이 세 가지 개념이 어떻게 서로 연결되거나 서로 사용될 수 있는지 확인하세요.

Presto 101: Presto란 무엇인가요?

watsonx.data의 개방형 데이터 레이크하우스 아키텍처에서 사용할 수 있는 빠르고 유연한 오픈 소스 쿼리 엔진에 대해 알아보세요.

다음 단계 안내

오픈 데이터 레이크하우스 아키텍처를 기반으로 특별 제작된 데이터 저장소인 IBM watsonx.data를 통해 어디서나 모든 데이터에 대한 AI 워크로드를 확장할 수 있습니다.

watsonx.data 살펴보기 라이브 데모 예약하기
각주