최신 데이터 플랫폼이란 무엇인가요?

최신 데이터 플랫폼은 조직의 데이터를 수집, 정리, 변환 및 분석하여 의사 결정을 개선하는 데 도움을 주는 클라우드 우선의 클라우드 네이티브 소프트웨어 제품군입니다.

오늘날의 데이터 파이프라인은 데이터 분석과 데이터 기반 의사 결정을 내리기 위해 점점 더 복잡해지고 그 중요성이 커지고 있습니다.최신 데이터 플랫폼은 정확하고 시기적절한 정보를 보장하고 데이터 사일로를 줄이며 셀프 서비스를 지원하고 데이터 품질을 개선하는 방식으로 데이터를 수집, 저장, 처리, 변환하여 데이터에 대한 신뢰를 구축합니다.

최신 데이터 스택이라고도 하는 최신 데이터 플랫폼은 데이터 저장 및 처리, 데이터 수집, 데이터 변환, 비즈니스 인텔리전스(BI), 분석 및 데이터 관측 가능성과 같은 다섯 가지의 중요한 기반 계층으로 구성됩니다.

최신 데이터 플랫폼을 관리하는 두 가지 기본 원칙은 다음과 같습니다.

가용성: 스토리지와 컴퓨팅을 분리하는데이터 레이크 또는 데이터 웨어하우스에서 데이터를 쉽게 사용할 수 있습니다.이러한 함수를 분할하면 비교적 저렴한 비용으로 대량의 데이터를 저장할 수 있습니다.
탄력성: 컴퓨팅 기능은 클라우드 기반이므로 자동 확장이 가능합니다.예를 들어, 특정 일과 시간에 데이터와 분석이 많이 소비되는 경우, 더 나은 고객 경험을 위해 처리량을 자동으로 확장하고 필요한 워크로드가 줄어들면 축소할 수 있습니다.

지금 IBM Databand 데모 예약하기

사전 예방적인 데이터 관측 가능성이 어떻게 데이터 인시던트를 조기에 감지하고 이를 더 빠르게 해결하는 데 도움이 되는지 알아보세요.

관련 내용

IBM 뉴스레터 구독하기

최신 데이터 플랫폼 철학

기술뿐만 아니라 DevOps, DataOps 및 민첩성에 대한 철학이 최신 데이터 플랫폼을 지원합니다. DevOps와 DataOps는 완전히 다른 목적을 가지고 있지만, 프로젝트 작업 주기를 가속화하도록 설계된 민첩성에 대한 철학은 비슷합니다.

DevOps 제품 개발에 중점을 두는 반면, DataOps 데이터로부터 비즈니스 가치를 제공하는 분산형 데이터 아키텍처 시스템을 만들고 유지 관리하는 데 중점을 둡니다.

민첩성(Agile)은 소프트웨어 개발 철학으로, 속도와 효율성을 높이면서도 '인적' 요소를 제거하지 않습니다. 커뮤니케이션을 극대화하기 위한 방법으로 대면 대화에 중점을 두는 동시에 오류를 최소화하는 수단으로 자동화를 강조합니다.

데이터 스토리지 및 처리

최신 데이터 플랫폼의 첫 번째 기본 계층은 스토리지와 처리입니다.

최신 데이터 스토리지 시스템은 데이터를 어디에 저장하고 어떻게 처리할지 등 데이터를 효율적으로 사용하는 데 초점을 맞추고 있습니다. 가장 많이 사용되는 두 가지 스토리지 형식은 데이터 웨어하우스와 데이터 레이크이지만, 데이터 레이크하우스와 데이터 메시가 인기를 얻고 있습니다.

데이터 웨어하우스

데이터 웨어하우스는 명확하고 정의된 사용 사례를 통해 구조화된 데이터를 관리하도록 설계되었습니다.

데이터 웨어하우스의 사용은 데이터베이스가 데이터 저장에 사용되었던 1990년대로 거슬러 올라갑니다. 이러한 데이터 웨어하우스는 온프레미스 방식이었으며 스토리지 용량이 매우 제한적이었습니다.

2013년경, 데이터 웨어하우스는 갑자기 확장이 가능한 클라우드로 전환하기 시작했습니다. 클라우드 기반 데이터 웨어하우스는 컴퓨팅 성능과 처리 속도를 최적화하기 때문에 선호되는 데이터 스토리지 시스템으로 남아 있습니다.

데이터 웨어하우스가 제대로 작동하려면 데이터를 수집하고 재형식화하며 정리하고, 웨어하우스에 업로드해야 합니다. 재형식화할 수 없는 데이터는 실될 수 있습니다.

데이터 레이크

2008년 1월, Yahoo는 Apache Software Foundation에 오픈 소스 프로젝트로 Hadoop(NoSQL 기반)을 출시했습니다. 데이터 레이크는 원래 Hadoop을 기반으로 구축되었으며, 확장성이 뛰어나고 온프레미스용으로 설계되었습니다. 안타깝게도 Hadoop 에코시스템은 매우 복잡하고 사용하기 어렵습니다. 데이터 레이크는 2015년부터 클라우드로 전환하기 시작하여 비용이 훨씬 저렴하고 사용자 친화적이 되었습니다.

데이터 레이크는 원래 연구자들이 광범위한 데이터에서 더 많은 통찰력을 얻을 수 있도록 스키마(형식)를 강제하지 않고 원시 비정형 데이터를수집하도록 설계되었습니다. 그래서 오래되거나 부정확하거나 쓸모없는 정보를 파싱하는 문제로 인해 데이터 레이크는 효율성이 떨어지는 '데이터 늪'이 될 수 있습니다.

일반적인 데이터 레이크 아키텍처는 AWS의 Amazon S3와 같은 Object Storage에데이터를 저장하고, 데이터를 처리하기 위해 Spark와 같은 도구와 결합됩니다.

데이터 레이크하우스

데이터 레이크하우스는 데이터 레이크의 유연성, 비용 효율성, 확장성을 ACID(원자성, 일관성, 고립성, 및 지속성) 트랜잭션 및 데이터 웨어하우스의 데이터 관리 기능과 결합한 것입니다.(ACID는 트랜잭션을 정의하는 네 가지 주요 속성 집합인 원자성(atomicity), 일관성(consistency), 고립성(isolation) 및 지속성(durability)의 약어입니다.)

데이터 레이크하우스는 BI와 머신러닝을 지원하는 반면, 데이터 레이크하우스의 주요 강점은 메타데이터 계층을 사용한다는 것입니다. 데이터 레이크하우스는 또한 고성능 SQL 검색을 위해 설계된 새로운 쿼리 엔진을 사용합니다.

데이터 메시

데이터 웨어하우스, 데이터 레이크, 데이터 레이크하우스와 달리 데이터 메시는 데이터 소유권을 분산시킵니다. 이 아키텍처 모델을 사용하면 특정 도메인(예: 비즈니스 파트너 또는 부서)이 데이터를 소유하지 않고 다른 도메인과 자유롭게 공유할 수 있습니다. 즉, 데이터 메시 시스템 내의 모든 데이터는 일관된 형식을 유지해야 합니다.

데이터 메시 시스템은 여러 데이터 도메인을 지원하는 비즈니스에 유용할 수 있습니다.데이터 메시 설계에는 데이터 거버넌스 계층과 관측 가능성 계층이 있습니다. 또한 범용 상호 운용성 계층도 있습니다.

데이터 메시는 빠르게 확장되고 데이터 저장을 위한 확장성이 필요한 조직에 유용할 수 있습니다.

데이터 수집

향후 사용을 위해 데이터를 스토리지 시스템에 저장하는 프로세스를 데이터 수집이라고 하며, 이는 최신 데이터 플랫폼의 두 번째 계층입니다.

간단히 말해, 데이터 수집은 다양한 소스의 데이터를 중앙 위치로 이동하는 것을 의미합니다. 여기에서 데이터는 기록 보관 또는 추가 처리 및 분석에 사용될 수 있습니다. 이 두 가지 모두 접근 가능하고 일관되며 정확한 데이터를 필요로 합니다.

조직은 분석 인프라의 데이터를 사용하여 비즈니스 결정을 내립니다.이 데이터의 가치는 데이터가 얼마나 잘 수집되고 통합되느냐에 따라 달라집니다.누락되거나 오래된 데이터 세트 등 수집 프로세스 중에 문제가 발생하면 분석 프로세스의 모든 단계가 어려움을 겪게 됩니다.이는 빅 데이터 의 경우 특히 그렇습니다.

데이터 처리 모델

데이터 수집은 다양한 방식으로 이루어질 수 있으며, 특정 데이터 수집 계층이 설계되는 방식은 다양한 처리 모델을 기반으로 합니다. 데이터는 SaaS 플랫폼, 사물인터넷(IoT) 장치, 모바일 장치 등 다양한 소스에서 올 수 있습니다. 좋은 데이터 처리 모델은 효율적인 데이터 전략의 기반이 되므로 조직은 어떤 모델이 자신의 상황에 가장 적합한지 결정해야 합니다.

일괄 처리는 실시간 처리를 위해 설계되지는 않았지만 가장 일반적인 데이터 수집 형태입니다.대신 소스 데이터를 일괄적으로 수집하고 그룹화하여 수신지로 전송합니다.일괄 처리는 간단한 일정을 통해 시작되거나 미리 결정된 특정 조건이 존재할 때 활성화될 수 있습니다.일반적으로 실시간 데이터가 필요하지 않을 때 사용되는데, 실시간 처리보다 작업량이 적고 비용도 저렴하기 때문입니다.
실시간 처리 (스트리밍 또는 스트림 처리라고도 함)는 데이터를 그룹화하지 않습니다. 대신 데이터가 인식되는 즉시 데이터를 가져와서 변환하고 로드합니다. 실시간 처리는 데이터 소스를 지속적으로 모니터링해야 하고 새로운 정보를 자동으로 받아들이기 때문에 비용이 더 많이 듭니다.

데이터 변환

다음 계층인 데이터 변환은 데이터 분석 프로젝트에 종종 필요한 데이터의 값, 구조 및 형식 변경을 다룹니다. 데이터 파이프라인을 사용하면 데이터가 스토리지 수신지에 도착하기 전이나 후에 변환될 수 있습니다.

최근까지 최신 데이터 수집 모델은 소스에서 데이터를 가져와서 재형식화한 후 수신지로 전송하는 ETL (추출, 변환, 로드) 절차를 사용했습니다. 이는 기업이 값비싼 사내 분석 시스템을 사용해야 할 때 의미가 있었습니다. 변환을 포함하여 배포하기 앞서 준비 작업을 수행하면 비용이 절감됩니다. 여전히 온프레미스 데이터 웨어하우스를 사용하는 조직은 일반적으로 ETL 프로세스를 사용합니다.

오늘날 많은 조직은 필요에 따라 컴퓨팅 및 스토리지 리소스를 확장할 수 있는 클라우드 기반 데이터 웨어하우스(IBM, Snowflake, Google BigQuery, Microsoft Azure 등)를 선호합니다. 클라우드 확장성을 통해 사전 로드 변환을 우회할 수 있으므로 원시 데이터를 데이터 웨어하우스로 더 빠르게 전송할 수 있습니다. 그런 다음 데이터는 일반적으로 쿼리에 응답할 때 ELT(추출, 로드, 변환) 모델을 사용하여 도착한 후 변환됩니다.

이 시점에서 데이터는 SQL 형식으로 변환되어 연구 중에 데이터 웨어하우스 내에서 실행될 수 있습니다.

데이터 변환에는 다음과 같은 몇 가지 장점이 있습니다.

유용성: 데이터를 표준화하고 올바른 구조로 정리하면 데이터 엔지니어링 팀이 사용할 수 없거나 분석하지 못할 수도 있었을 데이터에서 비즈니스 가치를 창출할 수 있습니다.

데이터 품질: 원시 데이터를 변환하면 데이터 오류, 불일치 및 누락된 값을 식별하고 수정하여 더 깨끗하고 정확한 데이터를 얻을 수 있습니다.
더 나은 구성: 변환된 데이터가 사람과 컴퓨터 모두에게 더 처리하기 쉽습니다.

비즈니스 인텔리전스 및 분석

네 번째 최신 데이터 플랫폼 계층은 비즈니스 인텔리전스(BI) 및 분석 도구입니다.

1865년 리처드 밀러 데벤스(Richard Millar Devens)는 '상업 및 비즈니스 일화 백과사전(Cyclopædia of Commercial and Business Anecdotes)'에서 '비즈니스 인텔리전스'라는 표현을 제시했습니다. 그는 은행가인 헨리 퍼니스(Henry Furnese) 경이 경쟁에 앞서 정보를 수집하고 사용하여 정보에서 이익을 얻은 방법을 설명하기 위해 이 용어를 사용했습니다.

현재는 데이터 분석뿐만 아니라 비즈니스 분석을 통해 수많은 비즈니스 정보가 수집됩니다. BI 및 분석 도구를 사용하여 데이터에 접근하고, 분석하고, 이해 가능한 통찰력을 제공하는 시각화 자료로 변환할 수 있습니다. 연구자와 데이터 과학자에게 상세한 인텔리전스를 제공하면 전술적이고 전략적인 비즈니스 의사 결정을 내리는 데 도움이 될 수 있습니다.

데이터 관측가능성(Observability)

최신 데이터 플랫폼의 다섯 가지 기본 계층 중 마지막 계층은 데이터 관측 가능성입니다.

데이터 관측 가능성은 데이터 상태와 건전성을 감시하고 관찰하는 능력을 말합니다. 이는 결합 시 사용자가 거의 실시간으로 데이터 문제를 식별하고 해결할 수 있도록 하는 다양한 활동과 기술을 포함합니다.

관측 가능성을 통해 데이터 엔지니어링 팀은 극도로 분산된 시스템 이면에서 어떤 일이 일어나고 있는지에 대한 구체적인 질문에 답할 수 있습니다. 이는 데이터가 느리게 이동하는 위치와 손상된 부분을 보여 줍니다.

관리자, 데이터 팀 및 기타 다양한 이해관계자에게 잠재적 문제에 관한 알림을 전송해 사전에 문제를 해결할 수 있습니다. 예측 가능성 기능은 도움이 될 수 있지만 모든 문제를 포착할 수 있다는 보장은 없습니다.

데이터 관측 가능성을 유용하게 활용하려면 다음과 같은 기능을 포함해야 합니다.

SLA 추적: 사전 정의된 표준을 기준으로 파이프라인 메타데이터 및 데이터 품질을 측정합니다.
모니터링: 세부 대시보드가 시스템 또는 파이프라인의 운영 메트릭을 보여 줍니다.
로깅: 새로 발견된 이상 징후와 비교하기 위해 이벤트에 대한 과거 기록(추적, 비교, 분석)이 보관됩니다.
경고: 이상 징후와 예상되는 이벤트 모두에 대해 경고를 전송합니다.
분석: 자동화된 탐지 프로세스가 시스템에 맞게 조정됩니다.
추적: 특정 메트릭및 이벤트를 추적할 수 있는 기능을 제공합니다.
비교: 역사적 배경과 이상 징후 알림을 제공합니다.

많은 조직에서 관측 가능성은 사일로화되어 있어 특정 부서만 데이터에 접근할 수 있습니다. 철학적으로 데이터 메시 시스템은 데이터를 공유하도록 요구하여 이 문제를 해결하는데, 이는 일반적으로 기존 스토리지 및 처리 시스템에서는 권장되지 않습니다.

기타 최신 데이터 플랫폼 계층

위의 5개 기본 계층 외에도 최신 데이터 스택에서 일반적인 다른 레이어는 다음과 같습니다.

데이터 디스커버리

접근할 수 없는 데이터는 본질적으로 쓸모없는 데이터입니다. 데이터 디스커버리는 데이터가 방치되지 않도록 도와줍니다. 비즈니스 리더가 데이터에서 발견되는 추세와 패턴을 이해할 수 있도록 다양한 소스에서 데이터를 수집, 평가 및 탐색하는 것입니다. 데이터를 정리하고 준비할 수 있으며, 분석을 위해 사일로화된 데이터를 통합할 수 있기 때문에 BI와 연결되기도 합니다.

데이터 거버넌스

최신 데이터 플랫폼은 민감한 정보를 보호하고 규제를 준수하며 데이터 품질을 관리하기 위해 데이터 거버넌스와 보안을 강조합니다. 이 계층을 지원하는 도구는 데이터 접근 제어, 암호화, 감사 및 데이터 리니지 추적 기능을 제공합니다.

데이터 카탈로그 및 메타데이터 관리

데이터 카탈로그와 메타데이터 관리는 사용 가능한 데이터 자산을 검색하고 이해하는 데 매우 중요합니다.이를 통해 사용자는 분석에 적합한 데이터를 찾을 수 있습니다.

머신 러닝 및 AI

일부 최신 데이터 플랫폼에는 예측 분석, 이상 징후 탐지, 자동화된 의사 결정을 위한 머신 러닝 및 AI 기능이 통합되어 있습니다.