데이터 리니지란 무엇인가요?

데이터 리니지는 시간 경과에 따른 데이터 흐름을 추적하여 데이터의 출처, 변경 방법, 데이터 파이프라인 내 최종 목적지에 대한 명확한 이해를 제공하는 프로세스입니다.

데이터 리니지 도구는 소스 정보 및 ETL 또는 ELT 프로세스 중에 적용된 모든 데이터 변환을 포함하여 수명 주기 전반에 걸쳐 데이터 레코드를 제공합니다.

사용자는 이러한 유형의 문서를 통해 데이터 여정에서 다양한 접점을 관찰하고 추적할 수 있으므로 조직은 정확성과 일관성을 검증할 수 있습니다. 이는 조직 내에서 데이터 품질을 보장하는 데 중요한 기능입니다. 일반적으로 과거 프로세스에 대한 컨텍스트를 파악하고 오류를 근본 원인까지 추적하는 데 사용됩니다.

데이터 리더를 위한 가이드

애플리케이션, 분석 및 생성형 AI에 적합한 데이터베이스를 활용하는 방법을 알아보세요.

관련 내용

AI 데이터 저장소에 관한 eBook 등록하기

데이터 리니지 vs 데이터 프라버넌스 vs 데이터 거버넌스

데이터 리니지, 데이터 출처, 데이터 거버넌스는 밀접하게 관련된 용어로, 서로 계층화되어 있습니다. 이 두 가지를 함께 사용하면 조직이 시간이 지나도 데이터 품질과 데이터 보안을 유지할 수 있습니다.

데이터 거버넌스는 데이터 수명 주기 전반에 걸쳐 데이터 소유자, 비즈니스 용어, 규칙, 정책 및 프로세스를 정의하여 조직 내에서 데이터 자산을 관리하는 구조를 만듭니다. 데이터 리니지 솔루션은 데이터가 이러한 표준을 준수하도록 지원하여 파이프라인 내에서 데이터가 어떻게 변경되는지에 대한 가시성을 제공함으로써 데이터 거버넌스 팀을 지원합니다. 데이터 프라버넌스는 보통 데이터 리니지의 맥락에서 사용되지만, 구체적으로 해당 데이터의 첫 번째 인스턴스 또는 그 출처를 의미합니다.

데이터 리니지는 매우 세분화된 수준에서 데이터에 대한 감사 추적을 제공하며, 이러한 유형의 세부 정보는 데이터 오류를 디버깅하는 데 매우 유용하므로 데이터 엔지니어가 보다 효과적으로 문제를 해결하고 해결책을 더 빨리 파악할 수 있습니다. 데이터 거버넌스의 범위는 데이터 리니지 및 데이터 프라버넌스보다 광범위하지만, 데이터 관리의 이러한 측면은 조직 표준을 적용하는 데 중요합니다.

기업이 데이터 리니지를 사용하는 이유

영업에서 인사에 이르기까지 기업의 모든 측면에서 더 나은 의사 결정을 내리고 프로세스를 개선하려면 신뢰할 수 있는 데이터가 필요합니다. 그러나 데이터의 품질이 우수할 때만 우수한 인사이트를 얻을 수 있으므로 관계자가 정확성에 대한 확신을 가질 때만 가치가 있습니다. 데이터 리니지는 데이터 마이그레이션, 시스템 업데이트, 오류 등으로 인해 발생할 수 있는 변경 사항에 대한 가시성을 제공하여 데이터 수명 주기 전반에 걸쳐 데이터 무결성을 보장합니다.

데이터 리니지는 다양한 비즈니스 및 IT 애플리케이션에서 엔터프라이즈 데이터 간의 관계를 문서화합니다. 이러한 세부 정보에는 다음이 포함될 수 있습니다.

온프레미스, 데이터 웨어하우스 또는 데이터 레이크와 같은 환경에서 데이터가 어디에 어떻게 저장되어 있는지 파악합니다.
데이터 사용 방법 및 데이터 업데이트, 사용 및 변경 담당자 민감한 데이터의 특정 세그먼트에 대한 액세스 권한을 가진 역할 및 애플리케이션도 여기에 포함됩니다. 개인 식별 정보(PII)
비즈니스 사용자와 애플리케이션에서 생성, 업로드, 변경한 데이터를 추적합니다. 예를 들어, 고객 관계 관리(CRM) 시스템에 연락처를 추가하거나 중복 레코드 제거와 같은 데이터 변환을 수행할 수 있습니다.
네트워킹 하드웨어 및 서버 등 조직의 여러 부분에서 생성되고 통합된 데이터입니다.

데이터 리니지의 작동 방식

메타데이터를 통해 데이터 리니지 도구 사용자는 데이터 파이프라인을 통해 데이터가 어떻게 흘러가는지 완전히 파악할 수 있습니다. 메타데이터는 '데이터에 대한 데이터'로, 유형, 형식, 구조, 작성자, 생성 날짜, 수정 날짜, 파일 크기 등 데이터 자산에 대한 다양한 정보를 포함합니다. 데이터 리니지 도구는 메타데이터에 대한 전체 그림을 제공하여 사용자가 데이터의 유용성을 판단할 수 있도록 안내합니다.

최근 몇 년 동안 빅 데이터의 발전에 따라 데이터를 저장하고 활용하는 방법도 발전했습니다. 기업에서는 의사 결정과 사업 성과를 높이고자 데이터 과학에 더 많이 투자하고 있습니다. 그러나 제대로 된 분석을 구성하기 위해서는 데이터 리니지 도구와 데이터 카탈로그를 활용하여 데이터 디스커버리 및 데이터 매핑 연습을 해야 합니다. 데이터 리니지 도구는 메타데이터를 통해 시간에 따른 데이터의 변화를 보여주는 반면, 데이터 카탈로그는 동일한 정보를 사용해 조직 내 모든 데이터 자산의 검색 가능한 인벤토리를 만듭니다. 이 두 가지를 함께 사용하면 데이터 시티즌은 주어진 결과에 대한 다양한 데이터 요소의 중요성을 이해할 수 있으며, 이는 모든 머신 러닝 알고리즘 개발의 기초가 됩니다.

데이터 리니지 사용 사례

오늘날 기업에서는 실시간 인사이트에 대한 요구가 증가하고 있지만 이러한 발견은 데이터와 파이프라인 전반의 여정에 대한 이해에 달려 있습니다. 다음은 팀에서 엔드투엔드 데이터 리니지 도구를 활용하여 워크플로를 개선할 수 있는 몇 가지 방법입니다.

데이터 모델링: 기업 내에서 다양한 데이터 요소와 그에 따른 연결 관계를 시각적으로 표현하려면 기업은 이를 지원하는 기본 데이터 구조를 정의해야 합니다. 데이터 리지니는 이러한 관계를 모델링하는 데 도움이 되며, 데이터 에코시스템 전반의 다양한 종속성을 보여줍니다. 데이터는 시간이 지남에 따라 진화하기 때문에 항상 새로운 데이터 소스가 등장하고, 새로운 데이터 통합을 수행해야 하는 등의 문제가 발생합니다. 따라서 기업이 데이터를 관리하는 데 사용하는 전반적인 데이터 모델 역시 변화하는 환경에 맞게 적응해야 합니다. 데이터 리지니는 데이터 모델 다이어그램을 통해 시간 경과에 따른 이러한 변화를 정확하게 반영하여 새롭거나 오래된 연결 또는 테이블을 강조하여 보여줍니다. 이를 통해 분석가와 데이터 과학자는 데이터 세트를 더 잘 이해할 수 있으므로 가치 있고 시기적절한 분석을 지원할 수 있습니다.

데이터 마이그레이션: 데이터를 새 스토리지 시스템으로 이동하거나 새 소프트웨어를 온보딩할 때 조직은 데이터 마이그레이션을 사용하여 데이터의 위치와 수명 주기를 파악합니다. 데이터 리니지는 이 데이터가 조직을 통해 어떻게 진행되었는지에 대한 보기를 제공하기 때문에, 팀이 이러한 시스템 마이그레이션 또는 업그레이드를 계획하도록 지원하여 새로운 스토리지 환경으로의 전반적인 전환을 가속화합니다. 또한 팀은 데이터 시스템을 정리하고 오래되고 관련이 없는 데이터를 보관하거나 삭제할 수 있습니다. 이에 따라 데이터 시스템의 전반적인 성능을 향상시켜 관리해야 하는 데이터의 양을 줄일 수 있습니다.

규정 준수: 데이터 리니지는 감사하고, 위험 관리를 개선하고, 데이터 거버넌스 정책 및 규정에 따라 데이터가 저장 및 처리되도록 하기 위한 규정 준수 메커니즘을 제공합니다. 예를 들어, 2016년에 유럽 연합 및 유럽 경제 지역에 있는 사람들의 개인 데이터를 보호하기 위해 GDPR 법안이 제정되어, 개인이 자신의 데이터에 대한 더 많은 통제권을 갖게 되었습니다. 미국에서는 캘리포니아와 같은 개별 주에서 California Consumer Privacy Act(CCPA)와 같은 정책을 개발하여, 기업이 데이터 수집에 대해 소비자에게 알리도록 요구했습니다. 이러한 유형의 법률은 이러한 데이터의 저장 및 보안을 최우선 순위로 삼고 있으며, 데이터 리니지 도구가 없으면 조직은 규정 미준수 문제를 시간과 비용이 많이 드는 작업으로 인식하게 됩니다.

영향 분석: 데이터 리니지 도구는 다운스트림 보고와 같은 특정 비즈니스 변경의 영향에 대한 가시성을 제공할 수 있습니다. 예를 들어, 데이터 요소의 이름이 변경되면 리더는 데이터 리니지를 통해 해당 보고에 액세스하는 대시보드 수와 그에 따라 영향을 받을 수 있는 사용자 수를 파악할 수 있습니다. 또한 데이터 오류의 영향과 조직 전체에 대한 노출을 평가하는 데도 도움이 될 수 있습니다. 데이터 오류는 여러 가지 이유로 발생할 수 있으며, 이로 인해 특정 비즈니스 인텔리전스 보고서나 데이터 소스에 대한 신뢰가 약화될 수 있습니다. 그러나 데이터 리니지 도구를 사용하면 팀이 데이터 오류를 소스까지 추적하여 데이터 처리를 최적화하고 각 팀과 커뮤니케이션할 수 있습니다.

IBM 솔루션

IBM Cloud Pak for Data

데이터 패브릭 아키텍처로 구축한 플랫폼을 활용하여 성과 예측을 보다 가속화합니다. 데이터 상주 위치에 구애받지 않고 데이터를 수집, 구성, 분석합니다.

IBM Cloud Pak for Data

IBM Knowledge Catalog

활성 메타데이터와 정책 관리를 기반으로 하는 지능형 카탈로그로 AI 및 분석을 위한 비즈니스용 데이터를 활성화합니다.

IBM Knowledge Catalog

다음 단계 안내

오픈 데이터 레이크하우스 아키텍처를 기반으로 특별 제작된 데이터 저장소인 IBM watsonx.data를 통해 어디서나 모든 데이터에 대한 AI 워크로드를 확장할 수 있습니다.

watsonx.data 살펴보기

라이브 데모 예약하기