topics 데이터 계보란? 데이터 계보란?
데이터 계보의 정의와 기업이 데이터 계보를 사용하여 비즈니스 인사이트를 개선하는 방법을 알아봅니다.
두 명의 직원이 공유 책상에 앉아 컴퓨터 모니터를 보고 있는 모습
데이터 계보란?

데이터 계보는 시간 경과에 따른 데이터 흐름을 추적하는 프로세스로, 데이터의 출처, 데이터에 일어난 변화, 데이터 파이프라인 내에서의 최종 목적지에 대한 자세한 정보를 제공합니다. 데이터 계보 도구는 ETL 또는 ELT 프로세스 중에 적용된 소스 정보와 데이터 변환을 포함하여 라이프사이클 전반의 데이터 기록을 제공합니다. 이러한 유형의 문서를 통해 사용자는 데이터 여정에 따라 다양한 접점을 관찰하고 추적할 수 있으며, 조직은 정확성과 일관성을 검증할 수 있습니다. 이는 조직 내의 데이터 품질을 보장하는 중요한 기능이며, 일반적으로 과거의 프로세스에 대한 맥락을 파악하고 오류의 근본 원인을 추적하는 데 사용됩니다.

데이터 계보, 데이터 출처 및 데이터 거버넌스 비교

데이터 계보, 데이터 출처 및 데이터 거버넌스는 서로 밀접하게 관련되어 있으며, 함께 사용할 경우 조직은 장기간에 걸쳐 데이터 품질과 데이터 보안을 유지 관리할 수 있습니다.

데이터 거버넌스는 데이터 라이프사이클 전반의 데이터 소유자, 비즈니스 용어, 규칙, 정책, 프로세스를 정의하여 조직에서 데이터 자산을 관리하는 구조를 구축합니다. 데이터 계보 솔루션은 데이터 거버넌스 팀에서 데이터가 이러한 표준을 준수하도록 지원하여 파이프라인에서 데이터가 어떻게 변화하는지에 대한 가시성을 제공합니다. 데이터 출처는 일반적으로 데이터 계보의 맥락에서 사용되지만, 특히 해당 데이터 또는 데이터 소스의 첫 번째 인스턴스를 나타냅니다.

데이터 계보는 매우 세분화된 수준에서 데이터의 감사 내역을 제공합니다. 이러한 유형의 세부정보는 데이터 오류를 디버깅하는 데 매우 유용하므로 데이터 엔지니어가 문제를 보다 효과적으로 해결하고 해결 방법을 보다 빠르게 식별할 수 있습니다. 데이터 거버넌스의 범위는 데이터 계보 및 데이터 출처보다 광범위하지만, 데이터 관리의 이러한 측면은 조직 표준을 적용하는 데 중요한 역할을 합니다.

기업이 데이터 계보를 사용해야 하는 이유

신뢰할 수 있는 데이터 는 영업부터 인사 관리에 이르기까지 비즈니스의 모든 측면에서 더 나은 의사결정을 이끌어내고 프로세스를 개선하는 데 필수적입니다. 그러나 이 정보는 인사이트가 데이터 품질만큼 우수하다는 전제로 이해 관계자가 데이터의 정확성을 확신할 때만 가치가 있습니다. 데이터 계보는 데이터 마이그레이션, 시스템 업데이트, 오류 등으로 인해 발생할 수 있는 변경 사항에 대한 가시성을 제공하여 라이프사이클 전반의 데이터 무결성을 보장합니다.

데이터 계보는 다양한 비즈니스와 IT 애플리케이션의 엔터프라이즈 데이터 간의 관계를 문서화합니다. 이러한 세부정보에는 다음이 포함될 수 있습니다.

  • 온프레미스, 데이터 웨어하우스 또는 데이터 레이크 등의 환경에서 데이터가 저장된 위치와 데이터가 저장되는 방법
  • 데이터의 사용 방법과 데이터의 업데이트, 사용 및 변경을 책임지는 담당자. 여기에는 개인 식별 정보(PII)와 같은 민감한 데이터의 특정 세그먼트에 액세스하도록 권한이 부여된 역할 및 애플리케이션도 포함됩니다.
  • 비즈니스 사용자 및 애플리케이션에서 생성, 업로드 및 변경한 데이터 추적 내역. 예를 들어 고객 관계 관리(CRM) 시스템에 연락처를 추가하는 작업이나 중복 레코드 제거와 같은 데이터 변환이 여기에 해당될 수 있습니다.
  • 네트워킹 하드웨어 및 서버 등 조직의 여러 부분에서 생성 및 통합된 데이터
데이터 계보의 작동 원리

데이터 계보 도구 사용자는 메타데이터를 사용하여 데이터 파이프라인을 통해 데이터가 전달되는 방식을 완벽하게 파악할 수 있습니다. 메타데이터는 "데이터에 대한 데이터"이며, 여기에는 유형, 형식, 구조, 작성자, 생성 날짜, 수정 날짜, 파일 크기 등 데이터 자산에 대한 다양한 정보가 포함됩니다. 데이터 계보 도구를 통해 사용자는 메타데이터를 전반적으로 잘 파악하여 데이터의 유용성을 판단할 수 있습니다.

최근 몇 년 동안 빅데이터의 발전과 함께 데이터를 저장하고 활용하는 방식도 진화했습니다. 기업은 의사결정을 내리고 비즈니스 성과를 이끌어내기 위해 데이터 사이언스에 더 많은 투자를 하고 있습니다. 그러나 분석을 체계적으로 수행하려면 데이터 감지 및 데이터 매핑 연습에 데이터 계보 도구와 데이터 카탈로그를 활용해야 합니다. 데이터 계보 도구는 메타데이터를 통해 시간 경과에 따른 데이터의 진화를 보여주고, 데이터 카탈로그는 동일한 정보를 사용하여 조직의 모든 데이터 자산에 대한 검색 가능한 인벤토리를 작성합니다. 함께 사용할 경우 일반 데이터 사용자는 결과에 기여한 다양한 데이터 요소의 중요성을 이해할 수 있으며, 이는 모든 머신 러닝 알고리즘 개발의 기초가 됩니다.

데이터 계보 적용사례

오늘날 실시간 인사이트를 요구하는 기업은 점점 더 증가하고 있지만, 이러한 결과는 데이터와 파이프라인 전반의 여정에 대한 이해에 달려 있습니다. 팀이 엔드 투 엔드 계보 도구를 활용하여 워크플로우를 개선할 수 있는 몇 가지 방법은 다음과 같습니다.

데이터 모델링: 엔터프라이즈 내의 다양한 데이터 요소와 그 연결 관계를 시각적으로 표현하기 위해 기업은 이를 지원하는 기본 데이터 구조를 정의해야 합니다. 데이터 계보는 이러한 관계를 모델링하는 데 도움이 되며, 데이터 생태계 전반의 다양한 종속성을 보여줍니다.  데이터는 시간 경과에 따라 진화하기 때문에 항상 새로운 데이터 소스가 등장하고 새로운 데이터 통합이 필요합니다. 결과적으로 기업이 데이터를 관리하는 데 사용하는 전체 데이터 모델도 변화하는 환경에 맞춰 조정되어야 합니다. 데이터 계보는 데이터 모델 다이어그램을 통해 시간 경과에 따른 변화를 정확하게 반영하여 새롭거나 오래된 연결 또는 테이블을 강조하는 데 도움이 됩니다. 이를 통해 분석가와 데이터 사이언티스트는 데이터 세트를 보다 정확하게 이해하게 되므로, 결과적으로 가치 있고 시기 적절한 분석을 수행하는 데 도움이 됩니다.

데이터 마이그레이션: 데이터를 새 스토리지 시스템으로 이동하거나 새 소프트웨어를 온보딩할 때 조직은 데이터 마이그레이션을 사용하여 데이터의 위치와 라이프사이클을 파악합니다. 데이터 계보는 이 데이터가 조직 전체에서 어떻게 발전했는지를 보여주므로 팀이 시스템 마이그레이션이나 업그레이드를 계획하는 데 도움을 주며 새로운 스토리지 환경으로의 전반적인 전환 속도를 높입니다. 또한 팀이 데이터 시스템을 정리하고 관련성이 없는 오래된 데이터를 보관하거나 삭제할 수 있게 해주므로, 결과적으로 데이터 시스템의 전반적인 성능을 개선하고 관리가 필요한 데이터의 양을 줄여줍니다.

규정 준수: 데이터 계보는 감사, 리스크 관리 개선, 그리고 데이터가 데이터 거버넌스 정책 및 규정에 따라 저장되고 처리되도록 보장하는 규정 준수 메커니즘을 제공합니다. 예를 들어, 2016년에 GDPR 법안이 유럽 연합 및 유럽 경제 지역 국민들의 개인 데이터를 보호하기 위해 제정되었으며, 개인들이 자신의 데이터를 보다 잘 통제할 수 있게 되었습니다. 미국에서는 캘리포니아 주와 같은 개별 주에서 CCPA(California Consumer Privacy Act)와 같은 정책을 개발하여 기업에 데이터 수집에 관해 소비자들에게 정보를 제공하도록 요구하고 있습니다. 이러한 유형의 법률은 데이터의 저장과 보안을 최우선 순위로 하므로, 데이터 계보 도구가 없는 경우 규정 비준수 문제로 시간과 비용이 많이 드는 문제가 발생할 수 있습니다.

영향 분석: 데이터 계보 도구는 다운스트림 보고와 같은 특정한 비즈니스 변경의 영향에 대한 가시성을 제공할 수 있습니다. 예를 들어 데이터 요소의 이름이 변경되는 경우 리더는 데이터 계보를 통해 영향을 받게 될 대시보드의 수와 해당 보고에 액세스하는 사용자 수를 파악할 수 있습니다. 이외에도 데이터 오류의 영향과 이 오류에 조직이 노출되는 범위를 평가할 수도 있습니다. 데이터 오류가 발생하는 원인은 다양하며, 이는 특정 비즈니스 인텔리전스 보고서 또는 데이터 소스에 대한 신뢰를 저하시킬 수 있습니다. 하지만 데이터 계보 도구를 사용하면 팀이 오류의 원인을 추적하여 데이터 처리를 최적화하고 각 팀 간의 커뮤니케이션을 활성화할 수 있습니다.

IBM 솔루션
IBM Cloud Pak for Data

데이터 패브릭 아키텍처로 구축된 플랫폼을 사용하여 결과를 보다 빠르게 예측합니다. 데이터가 있는 위치에 관계없이 데이터를 수집, 구성 및 분석할 수 있습니다.

IBM Cloud Pak for Data
IBM Watson Knowledge Catalog

활성 메타데이터 및 정책 관리에서 지원하는 지능형 카탈로그를 사용하여 AI 및 분석을 위한 비즈니스용 데이터를 활성화합니다.

IBM Watson Knowledge Catalog
다음 단계

IBM Cloud Pak for Data는 마이크로서비스와 선도적인 데이터 및 AI 기능을 활용하여 분산 시스템 전반의 데이터에 대한 지능적인 통합을 자동화하여 기업이 비즈니스 성과를 종합적으로 볼 수 있도록 해 줍니다. 이를 기반으로 기업은 엔터프라이즈 데이터를 더 빠르게 수집하고 구성한 후 인사이트를 도출하여 대규모로 의사결정을 내릴 수 있습니다. 또한 데이터 관리 팀은 IBM의 경쟁력 있는 보안 프레임워크 덕분에 데이터의 안전성을 신뢰할 수 있으므로 규제 정책을 준수하고 규정 준수 위험을 줄일 수 있습니다. IBM Cloud Pak® for Data 및 IBM Streams가 여러 환경에서 데이터 계보를 통해 비즈니스의 데이터 아키텍처를 이해하고 관리하는 데 어떻게 도움이 되는지 알아봅니다.

IBM Cloud Pak for Data 자세히 보기