데이터 레이크하우스란 무엇인가요?

작성자

Alexandra Jonker

Staff Editor

IBM Think

Alice Gomstyn

Staff Writer

IBM Think

데이터 레이크하우스란?

데이터 레이크하우스는 데이터 레이크의 유연한 데이터 스토리지와 데이터 웨어하우스의 고성능 분석 기능을 결합한 데이터 플랫폼입니다.

데이터 레이크와 데이터 웨어하우스는 일반적으로 함께 사용됩니다. 데이터 레이크는 새로운 데이터를 포괄하는 시스템의 역할을 하며, 데이터 웨어하우스는 데이터에 다운스트림 구조를 적용합니다.

그러나 신뢰할 수 있는 데이터를 제공하기 위해 이러한 시스템을 조정하는 것은 시간과 리소스 모두에서 비용이 많이 들 수 있습니다. 처리 시간이 길면 데이터 부실 문제가 발생하고 ETL의 추가 계층(추출, 변환, 로드)은 데이터 품질 위험을 초래합니다.

데이터 레이크하우스는 더 나은 데이터 관리 시스템을 구성하는 기능으로 데이터 웨어하우스와 데이터 레이크의 결함을 보완합니다. 데이터 웨어하우스의 데이터 구조와 데이터 레이크의 저렴한 스토리지 및 유연성을 결합합니다.

데이터 레이크하우스는 데이터 팀이 서로 다른 데이터 시스템을 통합하여 고급 분석(예: 머신러닝(ML))을 위한 데이터 처리를 가속화하고, 빅 데이터에 효율적으로 액세스하고, 데이터 품질을 개선할 수 있도록 합니다.

데이터 레이크하우스의 등장

데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 과제를 해결하고 그 이점을 하나의 데이터 아키텍처로 통합하기 위해 존재합니다.

예를 들어, 데이터 웨어하우스는 기업 데이터를 저장하고 변환하는 측면에서 데이터 레이크보다 성능이 뛰어납니다. 그러나 데이터 웨어하우징에는 엄격한 스키마(일반적으로 스타 스키마 및 눈송이 스키마)가 필요합니다.

따라서 데이터 웨어하우스는 인공 지능(AI) 및 ML 사용 사례에 중요한 비정형 데이터나 반정형 데이터를 처리하는 데 적합하지 않습니다. 또한 확장 능력도 제한적입니다.

데이터 레이크를 사용하면 조직은 다양한 데이터 소스의 모든 데이터 유형(정형 데이터, 비정형 데이터, 반정형 데이터)을 한 곳에서 집계할 수 있습니다. 보다 확장가능하고 경제적인 데이터 스토리지를 사용할 수 있지만 데이터 처리 도구가 내장되어 있지 않습니다.

데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 여러 측면을 병합합니다. 클라우드 오브젝트 스토리지를 사용하여 저렴한 비용으로 모든 형식의 데이터를 저장합니다. 그리고 그 클라우드 스토리지 위에는 고성능 쿼리, 실시간에 가까운 분석, 비즈니스 인텔리전스(BI) 작업을 지원하는 분석 인프라가 있습니다.

데이터 웨어하우스 vs. 데이터 레이크 vs. 데이터 레이크하우스

데이터 웨어하우스, 데이터 레이크 및 데이터 레이크하우스는 모두 데이터 리포지토리이지만 주요 차이점이 있습니다. 다양한 사용 사례에 대한 통합 데이터 아키텍처를 지원하기 위해 함께 사용되는 경우가 많습니다.

데이터 웨어하우스

데이터 웨어하우스 는 여러 소스의 원시 데이터를 중앙 리포지토리로 수집하고 관계형 데이터베이스 인프라로 구성합니다. 이 데이터 관리 시스템은 주로 엔터프라이즈 보고와 같은 데이터 분석 및 비즈니스 인텔리전스 애플리케이션을 지원합니다.

시스템은 ETL 프로세스를 사용하여 데이터를 추출, 변환 및 대상에 로드합니다. 하지만 데이터 소스의 수와 데이터의 양이 증가함에 따라 비효율성과 비용이 증가한다는 한계가 있습니다.

데이터 웨어하우스는 전통적으로 온프레미스에서 메인프레임에 호스팅되었지만, 오늘날 많은 데이터 웨어하우스는 클라우드에서 호스팅되고 클라우드 서비스로 제공됩니다.

데이터 레이크

데이터 레이크는 처음에는 Apache Hadoop과 같은 빅데이터 플랫폼에 구축되었습니다. 그러나 최신 데이터 레이크의 핵심은 모든 유형의 데이터를 저장할 수 있는 클라우드 오브젝트 스토리지 서비스입니다. 일반적인 서비스에는 Amazon Simple Storage Service(Amazon S3), Microsoft Azure Blob Storage, Google Cloud Storage 및 IBM Cloud Object Storage가 포함됩니다.

기업은 주로 비정형 데이터를 생성하기 때문에 이러한 스토리지 기능은 중요한 차이점입니다.  이를 통해 더 많은 데이터 과학 및 인공 지능(AI) 프로젝트를 수행할 수 있어 조직 전체에서 더 많은 새로운 인사이트와 더 나은 의사 결정을 내릴 수 있습니다.

그러나 데이터 레이크의 규모와 복잡성으로 인해 데이터 과학자, 데이터 엔지니어 등 기술에 능숙한 사용자의 전문 지식이 필요할 수 있습니다. 또한 데이터 거버넌스는 이러한 시스템의 다운스트림에서 발생하기 때문에 데이터 레이크는 데이터 사일로가 발생하기 쉬우며, 결과적으로 데이터 늪(부실한 관리로 인해 좋은 데이터에 액세스할 수 없는 상태)으로 발전할 수 있습니다.

데이터 레이크하우스

데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크 전반의 핵심 과제를 해결하여 조직에 보다 이상적인 데이터 관리 솔루션을 제공하고자 합니다. 그들은 광범위한 데이터 유형에 걸쳐 빠르고 저렴한 저장을 위해 클라우드 오브젝트 스토리지를 활용하는 동시에 고성능 분석 기능을 제공합니다. 조직은 데이터 레이크하우스를 기존 데이터 레이크 및 데이터 웨어하우스와 함께 사용할 수 있으며, 전체 해체 및 재구축 없이도 데이터 레이크하우스를 사용할 수 있습니다.

데이터 레이크하우스의 이점

데이터 레이크하우스는 사용자에게 다음과 같은 몇 가지 주요 이점을 제공합니다.

데이터 중복성 감소
비용 절감
다양한 워크로드 지원
데이터 거버넌스 개선
확장성 향상
실시간 스트리밍 지원

데이터 중복 감소

단일 데이터 스토리지 시스템은 모든 비즈니스 데이터 요구 사항을 충족하는 간소화된 플랫폼을 생성하여 데이터 중복을 줄입니다. 데이터 레이크하우스는 다양한 시스템으로 데이터 파이프라인을 통해 이동하는 데이터 양을 줄임으로써 종단 간 데이터 관측성을 간소화합니다.

비용 절감

데이터 레이크하우스는 클라우드 오브젝트 스토리지의 낮은 비용을 활용하므로 데이터 웨어하우스보다 비용 효율성이 높습니다. 데이터 레이크하우스의 하이브리드 아키텍처는 여러 데이터 스토리지 시스템을 유지 관리할 필요가 없어 운영 비용을 절감시킵니다.

다양한 워크로드 지원

데이터 레이크하우스는 데이터 관리 라이프사이클 전반에 걸쳐 다양한 사용 사례를 해결할 수 있습니다. 또한 비즈니스 인텔리전스 및 데이터 기반 시각화 워크플로를 지원하거나 더 복잡한 데이터 과학 작업을 지원합니다.

데이터 거버넌스 개선

데이터 레이크하우스 아키텍처는 데이터 레이크의 거버넌스 문제를 완화합니다. 예를 들어, 레이크하우스는 데이터가 수집되고 업로드될 때 정의된 스키마 요구 사항을 충족하는지 확인하여 다운스트림 데이터 품질 문제를 줄일 수 있습니다.

확장성 향상

기존 데이터 웨어하우스에서는 컴퓨팅과 스토리지가 결합되어 있습니다. 데이터 레이크하우스는 스토리지와 컴퓨팅을 분리하여 데이터 팀이 동일한 데이터 스토리지에 액세스하면서 서로 다른 애플리케이션에 대해 서로 다른 컴퓨팅 노드를 사용할 수 있도록 합니다. 이러한 디커플링을 통해 확장성과 유연성이 향상됩니다.

실시간 스트리밍 지원

데이터 레이크하우스는 오늘날의 비즈니스와 기술을 위해 구축되었습니다. 많은 데이터 소스에는 사물 인터넷(Internet of Things) 장치와 같은 장치의 실시간 스트리밍 데이터가 포함되어 있습니다. 레이크하우스 시스템은 실시간 데이터 수집을 통해 이러한 소스를 지원합니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

에피소드로 이동

Delta Lake란 무엇인가요?

Databricks에 의해 2016년 개발된 Delta Lake는 Apache Parquet 데이터 파일과 강력한 메타데이터 로그를 결합한 오픈 소스 데이터 스토리지 형식입니다. 이 형식은 스키마 적용, 시간 여행 및 ACID 트랜잭션과 같은 주요 데이터 관리 기능을 데이터 레이크에 추가합니다. (ACID는 "원자성, 일관성, 격리성 및 내구성"을 의미하며, 이는 데이터 무결성을 보장하기 위해 트랜잭션을 정의하는 핵심 속성입니다.)

이러한 기능은 데이터 레이크를 더 신뢰할 수 있고 직관적으로 만드는 데 도움이 됩니다. 또한 사용자는 데이터 레이크에서 구조화된 쿼리 언어(SQL) 쿼리, 분석 워크로드 및 기타 활동을 실행하여 비즈니스 인텔리전스, 데이터 인텔리전스(DI), AI 및 ML을 간소화할 수 있습니다.

Delta Lake는 2019년에 오픈 소스로 공개되었습니다. 그 이후로 데이터 레이크하우스는 일반적으로 데이터 레이크 위에 Delta Lake 스토리지 계층을 구축한 다음 Apache Spark 또는 Hive와 같은 데이터 처리 엔진과 통합하여 만들어집니다.

오픈 소스 기반 데이터 레이크하우스를 오픈 데이터 레이크하우스라고도 합니다. 다른 오픈 테이블 형식으로는 Apache Iceberg(대규모 분석 테이블을 위한 고성능 형식)와 Apache Hudi(증분 데이터 처리를 위해 설계됨)가 있습니다.

Delta Lake에 대해 자세히 알아보기

AI를 위한 하이브리드 오픈 데이터 레이크하우스

데이터 접근을 간소화하고 데이터 거버넌스를 자동화하세요. 어디서나 모든 데이터를 사용하여 워크로드 비용 최적화, AI 및 분석 확장을 포함하여 데이터 레이크하우스 전략을 데이터 아키텍처에 통합하는 방법을 알아보세요.

데이터 레이크하우스 아키텍처의 계층

데이터 레이크하우스의 아키텍처는 일반적으로 다음과 같은 다섯 계층으로 구성됩니다.

수집 계층
스토리지 계층
메타데이터 계층
API 계층
소비 계층

수집 계층

이 첫 번째 계층은 다양한 소스에서 데이터를 수집하여 레이크하우스가 저장하고 분석할 수 있는 데이터 형식으로 변환합니다. 수집 계층은 프로토콜을 사용하여 데이터베이스 관리 시스템, NoSQL 데이터베이스 및 소셜 미디어와 같은 내부 및 외부 소스에 연결할 수 있습니다.

스토리지 계층

이 계층에서는 정형, 비정형 및 반정형 데이터 세트가 Parquet 또는 Optimized Row Columnar(ORC)와 같은 오픈 소스 파일 형식으로 저장됩니다. 이 계층은 데이터 레이크하우스의 주요 이점인 합리적인 비용으로 모든 데이터 유형을 수용할 수 있는 기능을 제공합니다.

메타데이터 계층

메타데이터 계층은 레이크 스토리지의 모든 개체에 대한 메타데이터를 제공하는 통합 카탈로그로, 시스템의 데이터에 대한 정보를 구성하고 제공하는 데 도움이 됩니다. 이 계층은 또한 더 빠른 쿼리를 위해 ACID 트랜잭션, 파일 캐싱 및 인덱싱을 제공합니다. 사용자는 여기에서 미리 정의된 스키마를 구현하여 데이터 거버넌스 및 기능을 구현할 수 있습니다.

API 계층

데이터 레이크하우스는 애플리케이션 프로그래밍 인터페이스 (API)를 사용하여 작업 처리를 개선하고 고급 분석을 수행합니다. 특히 이 계층은 소비자 및/또는 개발자에게 추상 수준에서 TensorFlow와 같은 다양한 언어 및 라이브러리를 사용할 수 있는 기회를 제공합니다. API는 데이터 자산 소비를 위해 최적화되었습니다.

데이터 소비 계층

데이터 레이크하우스 아키텍처의 최종 계층에는 앱과 도구가 호스팅되며, 이 계층에는 레이크에 저장된 모든 메타데이터와 데이터에 대한 액세스 권한이 있습니다. 이를 통해 조직 전체의 사용자가 데이터에 액세스할 수 있으며, 사용자는 레이크하우스를 사용하여 비즈니스 인텔리전스 대시보드, 데이터 시각화 및 머신러닝 작업과 같은 작업을 수행할 수 있습니다.

하이브리드 클라우드를 위한 IBM 데이터 레이크하우스 패턴 살펴보기

생성형 AI를 위한 데이터 레이크하우스

watsonx.data가 어떻게 서로 다른 데이터 소스에서 데이터에 액세스하고 통합하며, RAG를 위한 벡터화된 임베딩을 저장하는 등의 기능을 제공하는지 알아보세요.

IBM, 2025년 3분기 Forrester Wave™ 통합 iPaaS 부문 리더로 선정

Forrester가 IBM을 현재 제공 제품/서비스(Current Offering) 부문에서 최고 점수로 리더로 선정한 이유를 알아보려면 보고서를 읽어보세요. 이 리더십이 광범위한 엔터프라이즈 통합 전략 내에서 안전하고 확장 가능한 파일 전송을 제공하여 IBM® webMethods MFT를 강화하는 방법을 알아보세요.

데이터 레이크하우스란?

작성자

데이터 레이크하우스란?

데이터 레이크하우스는 데이터 레이크의 유연한 데이터 스토리지와 데이터 웨어하우스의 고성능 분석 기능을 결합한 데이터 플랫폼입니다.

데이터 레이크하우스의 등장

최신 AI 뉴스+인사이트

데이터 웨어하우스 vs. 데이터 레이크 vs. 데이터 레이크하우스

데이터 웨어하우스

데이터 레이크

데이터 레이크하우스

데이터 레이크하우스의 이점

데이터 중복 감소

비용 절감

다양한 워크로드 지원

데이터 거버넌스 개선

확장성 향상

실시간 스트리밍 지원

데이터 관리가 생성형 AI 구현의 비결일까요?

Delta Lake란 무엇인가요?

AI를 위한 하이브리드 오픈 데이터 레이크하우스

데이터 레이크하우스 아키텍처의 계층

수집 계층

스토리지 계층

메타데이터 계층

API 계층

데이터 소비 계층

리소스

최신 AI 뉴스+인사이트