My IBM 로그인 구독하기

데이터 플랫폼이란 무엇인가요?

 

 

작성자

Matthew Kosinski

Enterprise Technology Writer

데이터 플랫폼이란 무엇인가요?

데이터 플랫폼은 데이터의 수집, 스토리지, 정리, 변환, 분석 및 거버넌스를 가능하게 하는 기술 솔루션입니다. 데이터 플랫폼에는 하드웨어와 소프트웨어 구성 요소가 모두 포함될 수 있습니다. 이를 통해 조직은 데이터를 더 쉽게 사용하여 의사 결정 및 운영을 개선할 수 있습니다.

오늘날 많은 조직이 데이터 분석, 데이터 과학 및 데이터 기반 의사 결정을 지원하기 위해 복잡한 데이터 파이프라인에 의존하고 있습니다. 최신 데이터 플랫폼은 조직이 데이터 품질을 보호하고 데이터의 가치를 극대화하는 데 필요한 툴을 제공합니다. 

특히 데이터 플랫폼은 실행 가능한 인사이트를 도출하고, 데이터 사일로를 줄이며, 셀프 서비스 분석을 지원하고,자동화를 간소화하고, 인공 지능(AI) 애플리케이션을 강화하는 데 도움이 될 수 있습니다.

“데이터 스택”이라고도 하는 데이터 플랫폼은 데이터 스토리지 및 처리, 데이터 수집, 데이터 변환, 비즈니스 인텔리전스(BI), 분석데이터 관측성의 다섯 가지 기본 계층으로 구성됩니다.

트랙에서 굴러가는 공의 3D 디자인

최신 AI 뉴스 + 인사이트 


주간 Think 뉴스레터에서 AI, 클라우드 등에 대한 전문적으로 선별된 인사이트와 뉴스를 발견하세요. 

데이터 플랫폼의 유형

데이터 플랫폼은 특정 비즈니스 기능을 제공하도록 구축 및 구성할 수 있습니다. 가장 일반적인 데이터 플랫폼의 유형은 다음과 같습니다.

  • 엔터프라이즈 데이터 플랫폼(EDP)
  • 빅데이터 플랫폼(BDP)
  • 클라우드 데이터 플랫폼(CDP)
  • 고객 데이터 플랫폼(CDP)

엔터프라이즈 데이터 플랫폼(EDP)

엔터프라이즈 데이터 플랫폼은 원래 엔터프라이즈 전체에서 데이터에 더 쉽게 액세스할 수 있도록 하는 중앙 리포지토리 역할을 하기 위해 개발되었습니다. 이러한 플랫폼은 일반적으로 데이터를 온프레미스, 운영 데이터베이스 또는 데이터 웨어하우스에 보관했습니다. 이들은 종종 구조화된 고객, 재무 및 공급망 데이터를 처리했습니다.

오늘날의 최신 데이터 플랫폼은 기존 엔터프라이즈 데이터 플랫폼의 능력을 확장하여 데이터가 정확하고 시기적절한지 확인하고, 데이터 사일로를 줄이고, 셀프 서비스를 가능하게 합니다. 최신 데이터 플랫폼은 더 많은 유연성과 비용 효율성을 지원하는 클라우드 네이티브 소프트웨어 제품군을 기반으로 구축되는 경우가 많습니다.

엔터프라이즈 데이터 플랫폼을 관리하는 두 가지 기본 원칙은 다음과 같습니다.

  • 가용성: 데이터는 스토리지와 컴퓨팅을 분리하는 데이터 레이크, 데이터 웨어하우스 또는 데이터 레이크하우스에서 쉽게 사용할 수 있습니다. 이러한 함수를 분할하면 비교적 저렴하게 많은 양의 데이터를 저장할 수 있습니다.

  • 탄력성: 컴퓨팅 기능은 클라우드 기반이므로 자동 크기 조정이 가능합니다. 예를 들어, 대부분의 데이터와 분석이 특정 날짜와 시간에 사용되는 경우 더 나은 고객 경험을 위해 처리를 자동으로 확장하고 워크로드 요구 사항이 감소하면 다시 축소할 수 있습니다.

빅데이터 플랫폼(BDP)

빅데이터 플랫폼은 대량의 데이터를 주로 실시간으로 수집, 처리 및 저장하도록 설계되었습니다. 빅데이터 플랫폼은 처리하는 데이터 양이 엄청나기 때문에, 데이터를 여러 서버에 분산시키는 분산 컴퓨팅을 사용하는 경우가 많습니다.

다른 유형의 데이터 플랫폼도 대량의 데이터를 관리할 수 있지만, 빅데이터 플랫폼은 해당 데이터를 고속으로 처리하도록 특별히 설계되었습니다. 엔터프라이즈급 BDP는 정형, 반정형, 비정형 등 방대한 데이터 세트에 대해 복잡한 쿼리를 실행할 수 있습니다. 일반적인 BDP 용도에는 빅데이터 분석, 사기 탐지, 예측 분석 및 추천 시스템이 포함됩니다.

빅데이터 플랫폼은 서비스형 소프트웨어(SaaS) 제품, 서비스형 데이터(DaaS) 제공의 일부 또는 클라우드 컴퓨팅 제품군으로 제공되는 경우가 많습니다.

클라우드 데이터 플랫폼(CDP)

이름에서 알 수 있듯이 클라우드 데이터 플랫폼의 가장 큰 특징은 클라우드 기반이기 때문에 여러 가지 이점을 제공할 수 있다는 점입니다.

  • 클라우드 데이터 플랫폼은 종량제 방식으로 제공되는 경우가 많습니다.
  • 총 스토리지 공간은 필요에 따라 유연하게 확장하거나 축소할 수 있습니다.
  • 온프레미스 하드웨어 플랫폼을 유지 관리하기 위해 직원이 필요하지 않습니다.
  • 클라우드 데이터 플랫폼에는 빅데이터, 엔터프라이즈 데이터 또는 고객 데이터를 위한 플랫폼이 포함될 수 있습니다.
  • 많은 CDP가 고급 분석, 머신 러닝(ML) 및 시각화 툴과 같은 추가 기능을 제공합니다.

고객 데이터 플랫폼(CDP)

고객 데이터 플랫폼은 여러 소스에서 고객 데이터를 수집하고 통합하여 모든 고객에 대한 일관되고 완전한 단일 뷰를 구축합니다.  

CDP에 대한 입력은 조직의 고객 관계 관리(CRM) 시스템, 소셜 미디어 활동, 조직과의 접점, 거래 시스템 또는 웹사이트 분석을 통해 수집될 수 있습니다.

고객에 대한 통합된 360도 뷰를 통해 조직은 고객의 행동과 선호도에 대한 더 나은 인사이트를 확보하여 보다 표적화된 마케팅, 더 나은 사용자 경험 및 새로운 수익 기회를 창출할 수 있습니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

데이터 플랫폼의 계층

데이터 플랫폼은 조직의 필요에 따라 다양한 형태와 크기로 제공될 수 있습니다. 일반적인 플랫폼에는 최소한 다음과 같은 5개의 계층이 포함됩니다.

  1. 데이터 스토리지
  2. 데이터 수집
  3. 데이터 변환
  4. 비즈니스 인텔리전스 및 분석
  5. 데이터 관측성

1. 데이터 스토리지

많은 데이터 플랫폼의 첫 번째 계층은 데이터 스토리지 계층입니다. 사용되는 데이터 스토리지 유형은 조직의 요구 사항에 따라 달라지며 온프레미스 스토리지와 클라우드 스토리지를 모두 포함할 수 있습니다. 일반적인 데이터 저장소에는 다음이 포함됩니다.

데이터 웨어하우스

데이터 웨어하우스또는 엔터프라이즈 데이터 웨어하우스(EDW)는 서로 다른 소스의 데이터를 일관된 단일 중앙 데이터 저장소로 집계하여 데이터 분석, 데이터 마이닝, AI 및 머신 러닝을 지원합니다. 데이터 웨어하우스는 분석 사용 사례가 명확하게 정의된 정형 데이터를 관리하는 데 가장 많이 사용됩니다.  

데이터 레이크

데이터 레이크는 일반적으로 페타바이트 규모의 원시 데이터를 저장하는 저비용 스토리지 환경입니다. 데이터 레이크는 정형 데이터와 비정형 데이터를 모두 다양한 형식으로 저장할 수 있으므로 연구자가 광범위한 데이터로 더 쉽게 작업할 수 있습니다.

데이터 레이크는 원래 NoSQL을 기반으로 하는 오픈 소스 프로젝트인 Hadoop 에코시스템에서 구축된 경우가 많습니다. 2015년경부터 많은 데이터 레이크가 클라우드로 전환되기 시작했습니다. 이제 일반적인 데이터 레이크 아키텍처는 Amazon Web Services(AWS)의 Amazon S3와 같은 Object Storage 플랫폼에 데이터를 저장하고 Spark와 같은 툴을 사용하여 데이터를 처리할 수 있습니다.

데이터 레이크하우스

데이터 레이크하우스는 데이터 웨어하우스와 데이터 레이크의 기능을 하나의 데이터 관리 솔루션으로 통합합니다.

데이터 웨어하우스는 데이터 레이크보다 더 나은 성능을 제공하지만, 비용이 더 많이 들고 확장 능력이 제한적인 경우가 많습니다. 데이터 레이크는 스토리지 비용에 최적화되어 있지만 유용한 분석을 위한 구조가 부족합니다.

데이터 레이크하우스는 Cloud Object Storage를 사용하여 더 광범위한 데이터 유형, 즉 정형 데이터, 비정형 데이터, 반정형 데이터를 저장함으로써 이러한 문제를 해결하도록 설계되었습니다. 데이터 레이크하우스 아키텍처는 이러한 스토리지와 비즈니스 인텔리전스, 머신 러닝과 같은 고급 분석 작업을 지원하는 툴과 결합합니다.

2. 데이터 수집

다양한 소스에서 데이터를 수집하고 데이터를 스토리지 시스템으로 이동하는 프로세스를 데이터 수집이라고 합니다. 수집된 데이터는 기록 보관 또는 추가 처리 및 분석을 위해 사용될 수 있습니다.

조직의 데이터 인프라의 효율성은 데이터를 얼마나 잘 수집하고 통합하는지에 따라 크게 달라집니다. 수집 중에 누락되거나 오래된 데이터 세트와 같은 문제가 발생하면 다운스트림 분석 워크플로의 모든 단계에 문제가 발생할 수 있습니다.

조직의 요구 사항과 포괄적인 데이터 아키텍처에 따라 수집에는 다양한 데이터 처리 모델이 사용될 수 있습니다.

  • 일괄 처리는 가장 일반적인 데이터 수집 형태입니다. 데이터를 실시간으로 처리하는 것이 아니라 데이터를 수집하고 일괄 처리하여 그룹화한 다음 스토리지로 전송합니다. 일괄 처리는 간단한 일정을 사용하여 시작하거나 미리 정해진 특정 조건이 있을 때 활성화될 수 있습니다. 일반적으로 실시간 데이터가 필요하지 않을 때 사용되는데, 실시간 처리보다 작업량이 적고 비용도 저렴하기 때문입니다.
     
  • 스트리밍 또는 스트림 처리라고도 하는 실시간 처리는 데이터를 그룹화하지 않습니다. 대신 데이터가 인식되는 즉시 데이터를 수집하고, 변환하고, 로드합니다. 실시간 처리는 데이터 소스를 지속적으로 모니터링해야 하기 때문에 비용이 더 많이 듭니다.

3. 데이터 변환

세 번째 계층인 데이터 변환은 데이터 분석 및 기타 프로젝트에 사용할 수 있도록 데이터의 구조와 형식을 변경하는 작업을 다룹니다. 예를 들어, 비정형 데이터를 SQL 형식으로 변환하여 검색하기 쉽게 만들 수 있습니다. 데이터는 스토리지 대상에 도착하기 전이나 도착한 후에 변환할 수 있습니다.

최근까지 대부분의 데이터 수집 모델은 추출, 변환, 로드(ETL) 절차를 사용하여 데이터를 소스에서 가져와서 다시 포맷하고 목적지로 전송했습니다. 이는 기업에서 사내 분석 시스템을 사용하는 경우에 적합합니다. 데이터를 목적지로 전달하기 전에 준비 작업을 수행하면 비용을 절감하는 데 도움이 될 수 있습니다. 여전히 온프레미스 데이터 웨어하우스를 사용하는 조직들은 일반적으로 ETL 프로세스를 사용합니다.

그러나 오늘날 많은 조직에서는 IBM Db2 Warehouse, Microsoft Azure, Snowflake, Google Cloud의 BigQuery와 같은 클라우드 기반 데이터 웨어하우스를 선호합니다. 클라우드 확장성을 통해 조직은 ELT(추출, 로드, 변환) 모델을 사용할 수 있으며, 이 모델은 사전 로드 변환을 우회하여 원시 데이터를 데이터 웨어하우스로 직접 더 빠르게 보낼 수 있습니다. 그런 다음 데이터는 도착 후, 일반적으로 쿼리를 실행할 때 필요에 따라 변환됩니다.

4. 비즈니스 인텔리전스 및 분석

네 번째 데이터 플랫폼 계층에는 사용자가 비즈니스 분석 및 빅데이터 분석 작업에 데이터를 활용할 수 있도록 지원하는 비즈니스 인텔리전스(BI) 및 분석 툴이 포함되어 있습니다. 예를 들어, BI 및 분석 툴을 사용하면 사용자가 데이터를 쿼리하거나, 시각화로 변환하거나, 다른 방식으로 조작할 수 있습니다.

조직의 많은 부서에서 이 계층은 사용자가 데이터와 직접 상호 작용하는 데이터 플랫폼의 표면인 경우가 많습니다.

연구자와 데이터 과학자는 데이터를 활용하여 실행 가능한 정보와 인사이트를 얻을 수 있습니다. 마케팅 부서에서는 BI 및 분석 툴을 사용하여 고객에 대해 자세히 살펴보고 가치 있는 이니셔티브를 찾을 수 있습니다. 공급망 팀은 데이터 분석 인사이트를 사용하여 프로세스를 간소화하거나 우수한 공급업체를 찾을 수 있습니다.

이 계층을 사용하는 것은 조직이 처음에 데이터를 수집하는 주된 이유입니다.

5. 데이터 관측성

데이터 관측성은 데이터 품질, 가용성 및 신뢰성을 높이기 위해 데이터를 모니터링, 관리 및 유지 관리하는 관행입니다. 데이터 관측성은 추적, 로깅, 경고 및 이상 징후 탐지를 포함한 여러 활동과 기술을 다룹니다.

이러한 활동을 결합하여 대시보드에서 볼 수 있으므로 사용자는 거의 실시간으로 데이터 문제를 식별하고 해결할 수 있습니다. 예를 들어, 관측 가능성 계층은 데이터 엔지니어링 팀이 분산 시스템의 내부에서 무슨 일이 일어나고 있는지에 대한 구체적인 질문에 답하는 데 도움이 됩니다. 시스템에서 데이터가 어떻게 흐르는지, 데이터가 느리게 이동하는 곳과 손상된 부분을 보여줄 수 있습니다.

또한 관측 가능성 툴은 관리자, 데이터 팀 및 기타 이해관계자에게 잠재적 문제에 대해 경고하여 사전에 문제를 해결할 수 있도록 할 수 있습니다.

추가 데이터 플랫폼 계층

이 다섯 가지 기본 계층 외에도 최신 데이터 스택에서 흔히 볼 수 있는 다른 계층은 다음과 같습니다.

데이터 디스커버리

 

액세스할 수 없는 데이터는 쓸모없는 데이터입니다. 데이터 디스커버리는 데이터가 보이지 않는 곳에 방치되지 않도록 도와줍니다. 특히 데이터 디스커버리는 서로 다른 소스로부터 데이터를 수집, 평가 및 탐색하는 것으로, 사일로화되어 있거나 이전에 알려지지 않은 소스의 데이터를 한데 모아 분석하는 것을 목표로 합니다.

데이터 거버넌스

 

최신 데이터 플랫폼은 민감한 정보를 보호하고, 규정 준수를 촉진하고, 액세스를 촉진하고, 데이터 품질을 관리하기 위해 데이터 거버넌스와 데이터 보안을 강조하는 경우가 많습니다. 이 계층을 지원하는 툴에는 액세스 제어, 암호화, 감사 및 데이터 리니지 추적이 포함됩니다.

데이터 카탈로그 작성 및 메타데이터 관리

 

데이터 카탈로그는 데이터를 설명하거나 요약하는 데이터인 메타데이터를 사용하여 조직의 모든 데이터 자산에 대한 유익하고 검색 가능한 인벤토리를 생성합니다. 예를 들어, 데이터 카탈로그를 사용하면 문서, 이미지, 오디오, 비디오, 데이터 시각화 등 비정형 데이터를 더 빠르게 찾을 수 있습니다.

머신 러닝 및 AI

 

일부 엔터프라이즈급 데이터 플랫폼은 머신 러닝과 AI 기능을 통합하여 사용자가 데이터에서 귀중한 인사이트를 추출할 수 있도록 지원합니다. 예를 들어, 플랫폼에는 예측 분석 알고리즘, 이상 징후 탐지를 위한 머신 러닝 모델, 생성형 AI 툴로 구동되는 자동화된 인사이트가 포함될 수 있습니다.

데이터 플랫폼이 중요한 이유

강력한 데이터 플랫폼은 기술 담당자가 데이터를 더 잘 제어하고 일반 사용자가 더 빠르게 셀프 서비스를 이용할 수 있도록 지원하여 조직이 데이터에서 더 많은 가치를 얻을 수 있도록 도와줍니다.

데이터 플랫폼은 데이터 유용성을 가로막는 가장 큰 장벽 중 하나인 데이터 사일로를 무너뜨리는 데 도움이 될 수 있습니다. 인사, 생산, 공급망과 같은 각 부서는 별도의 환경에 별도의 데이터 저장소를 유지 관리하므로 불일치와 중복이 발생할 수 있습니다. 데이터가 데이터 플랫폼에 통합되면 조직 전체에서 신뢰할 수 있는 단일 소스(SSoT)가 만들어집니다.

사일로를 제거하고 데이터 통합을 개선하여 분석 및 비즈니스 의사 결정을 개선할 수 있습니다. 이처럼 데이터 플랫폼은 강력한 데이터 패브릭의 핵심 구성 요소로서, 의사 결정권자가 조직의 데이터를 보다 일관성 있게 파악할 수 있도록 도와줍니다. 이 일관된 보기를 통해 조직은 데이터 간에 새로운 연결 고리를 도출하고 데이터 마이닝 및 예측 분석을 위해 빅데이터를 활용할 수 있습니다.

또한 데이터 플랫폼을 통해 조직은 엔드투엔드 데이터 프로세스를 연구하고 새로운 효율성을 찾을 수 있습니다. 엔터프라이즈급 데이터 플랫폼은 정보에 대한 액세스 속도를 높여 내부 의사 결정과 고객 대응 활동의 효율성을 높일 수 있습니다. 

마지막으로, 잘 관리되는 데이터 플랫폼은 다양하고 중복된 데이터 스토리지를 제공하여 사이버 공격이나 자연 재해에 직면했을 때 조직의 탄력성을 향상시킬 수 있습니다.

관련 솔루션

관련 솔루션

데이터 관리 소프트웨어 및 솔루션

탁월한 고객 및 직원 경험을 제공하기 위해 데이터 사일로를 제거하고, 복잡성을 줄이며, 데이터 품질을 개선하는 데이터 전략을 구축하세요.

데이터 관리 솔루션 살펴보기
IBM watsonx.data™

watsonx.data를 사용하면 오픈, 하이브리드 및 관리형 데이터 저장소를 통해 데이터의 위치와 관계없이 모든 데이터로 분석과 AI를 확장할 수 있습니다.

watsonx.data 알아보기
데이터 및 분석 컨설팅 서비스

IBM Consulting을 통해 엔터프라이즈 데이터의 가치를 실현하여 비즈니스 이점을 제공하는 인사이트 중심의 조직을 구축하세요.

분석 서비스 알아보기
다음 단계 안내

탁월한 고객 및 직원 경험을 제공하기 위해 데이터 사일로를 제거하고, 복잡성을 줄이며, 데이터 품질을 개선하는 데이터 전략을 구축하세요.

데이터 관리 솔루션 살펴보기 watsonx.data 알아보기