topics 데이터 프로파일링이란 무엇일까요? 데이터 프로파일링이란 무엇인가요?
IBM을 통해 책임감 있게 데이터 프로파일링 적용 AI 주제 업데이트 구독
구름 픽토그램, 파이 차트, 그래프 픽토그램이 콜라주된 일러스트
데이터 프로파일링이란 무엇인가요?

데이터 프로파일링 또는 데이터 고고학은 데이터가 구조화되는 방식을 더 잘 이해하고 조직 내에서 데이터 품질 표준을 유지하기 위해 데이터를 검토하고 정리하는 프로세스입니다.

주요 목적은 데이터를 검토하고 요약하는 방법을 사용한 다음 상태를 평가하여 데이터의 품질에 대한 통찰력을 얻는 것입니다. 이 작업은 일반적으로 다양한 비즈니스 규칙과 분석 알고리즘을 사용하는 데이터 엔지니어가 수행합니다.

데이터 프로파일링은 정확성, 일관성, 적시성과 같은 요소를 기반으로 데이터를 평가하여 데이터에 일관성이나 정확성이 부족하거나 null 값이 있는지 표시합니다. 결과는 데이터 세트에 따라 숫자 또는 열 형태의 값과 같은 통계처럼 단순한 것일 수 있습니다. 데이터 프로파일링은 데이터 웨어하우징이나 비즈니스 인텔리전스와 관련된 프로젝트에 사용할 수 있으며 빅데이터에 더욱 유용합니다. 데이터 프로파일링은 데이터 처리 및 데이터 분석의 중요한 전조가 될 수 있습니다.

AI를 위한 데이터 저장소

데이터 레이크하우스 전략을 데이터 아키텍처에 통합하는 것의 힘에 대해 알아보고, AI 및 비용 최적화 기회를 확장하기 위한 개선 사항을 알아보세요.

관련 내용

생성형 AI에 관한 eBook 등록

데이터 프로파일링은 어떻게 작동하나요?

기업은 소프트웨어 또는 애플리케이션을 통합하여 데이터 세트가 적절하게 준비되도록 하고 불량 데이터를 제거하는 데 최대한 활용할 수 있습니다. 특히 데이터 품질 문제가 발생하거나 발생하는 소스를 확인할 수 있으며, 이는 궁극적으로 전반적인 비즈니스 운영 및 재정적 성공에 영향을 미칩니다. 이 프로세스는 필요한 데이터 품질 평가도 수행합니다.

데이터 프로파일링의 첫 번째 단계는 분석을 위해 데이터 소스 및 관련 메타데이터를 수집하는 것이며, 이 과정에서 종종 외래 키 관계를 발견할 수 있습니다. 다음 단계는 무엇보다도 통합된 구조를 보장하고 중복을 제거하기 위해 데이터를 정리하는 것입니다. 데이터가 정리되면 데이터 프로파일링 소프트웨어가 데이터 세트를 설명하는 통계를 반환하며 평균, 최소/최대값, 빈도 등의 정보를 포함할 수 있습니다. 아래에서는 적절한 데이터 프로파일링 기술에 대해 간략하게 설명합니다.

데이터 프로파일링 vs. 데이터 마이닝

데이터 마이닝과 겹치는 부분이 있지만데이터 프로파일링은 다른 목표를 염두에 두고 있습니다. 차이점은 무엇일까요?

  • 데이터 프로파일링은 데이터와 그 특성을 이해하는 데 도움이 되는 반면, 데이터 마이닝은 데이터를 분석하여 패턴이나 추세를 발견하는 프로세스입니다.
  • 데이터 프로파일링은 메타데이터를 수집한 다음 데이터 관리를 지원하기 위해 메타데이터를 분석하는 방법을 사용하는 데 중점을 둡니다.
  • 데이터 프로파일링, 가능성이 낮은 데이터 마이닝은 데이터의 특성에 대한 요약을 생성하고 데이터를 사용할 수 있도록 합니다.

즉, 데이터 프로파일링은 데이터가 정확하고 부정확성이 없는지 확인하기 위해 사용하는 첫 번째 툴입니다.

데이터 프로파일링 유형

데이터 프로파일링은 조직이 데이터를 처리하는 방법의 필수적인 부분이어야 하며 기업은 데이터 정리의 핵심 구성 요소로 간주해야 합니다. 데이터를 이해하는 데 도움이 될 뿐만 아니라 데이터가 표준 통계 측정값에 부합하는지 확인할 수도 있습니다. 분석가 팀은 다양한 방식으로 데이터 프로파일링에 접근할 수 있지만 일반적으로 데이터 품질을 개선하고 더 잘 이해한다는 동일한 목표를 염두에 두고 세 가지 주요 범주로 나뉩니다.

분석가가 데이터를 프로파일링하는 데 사용할 수 있는 접근 방식은 다음과 같습니다.

  • 구조 검색: 이 접근 방식은 데이터 형식에 중점을 두고 데이터베이스 전체에서 일관성을 유지합니다. 분석가가 데이터베이스를 검사할 때 이 유형에 사용할 수 있는 다양한 프로세스가 있습니다. 하나는 형식별 정보를 이해하는 데 도움이 될 수 있는 패턴 일치입니다. 예를 들어 전화 번호를 정렬하고 하나에 누락된 값이 있는 경우가 있습니다. 이는 구조 검색에서 포착될 수 있는 문제입니다.
  • 콘텐츠 검색: 이 유형은 오류 또는 시스템 문제에 대한 데이터 행을 분석하는 경우입니다. 이 프로세스는 데이터베이스의 개별 요소를 자세히 살펴보고 잘못된 값을 찾는 데 도움이 될 수 있습니다.
  • 관계 검색: 이 유형은 사용 중인 데이터를 찾고 각 집합 간의 연결을 찾는 것을 수반합니다. 이를 위해 분석가는 메타데이터 분석부터 시작하여 데이터 간의 관계를 파악한 다음 특정 필드 간의 연결 범위를 좁힙니다.
데이터 프로파일링의 이점과 과제

일반적으로 데이터를 프로파일링할 때 단점이 거의 또는 전혀 없습니다. 데이터의 양이 많을 때도 중요하지만 품질이 중요하기 때문에 데이터 프로파일링이 중요한 역할을 합니다. 정확한 형식의 데이터를 표준화하면 고객이 불만을 품거나 의사소통이 잘못될 가능성이 거의 또는 전혀 없습니다.

이러한 문제는 대부분 시스템적인 문제인데, 예를 들어 데이터가 모두 한 곳에 있지 않으면 찾기가 매우 어렵기 때문입니다. 그러나 특정 데이터 툴 및 응용 프로그램을 설치하면 문제가 되지 않으며 의사 결정과 관련하여 회사에만 도움이 될 수 있습니다. 다른 주요 이점과 과제에 대해 자세히 살펴보겠습니다.

이점

데이터 프로파일링은 다른 툴과 달리 데이터에 대한 높은 수준의 개요를 제공할 수 있습니다. 보다 구체적으로 다음을 기대할 수 있습니다.

  • 보다 정확한 분석: 완전한 데이터 프로파일링은 더 나은 품질과 더 신뢰할 수 있는 데이터를 보장합니다. 데이터를 적절하게 프로파일링하면 서로 다른 데이터 세트와 원본 간의 관계를 더 잘 이해하고 데이터 거버넌스 절차를 지원하는 데 도움이 될 수 있습니다.
  • 정보를 중앙 집중식으로 유지합니다. 데이터 프로파일링을 통해 데이터를 검사하고 분석하면 데이터 품질이 훨씬 더 높고 잘 정리되어 있을 것으로 기대할 수 있습니다. 원본 데이터를 검토하면 오류가 제거되고 문제가 가장 많은 영역이 강조 표시됩니다. 그런 다음 가능한 최상의 방법으로 데이터를 중앙 집중화하는 통찰력과 구성을 생성합니다.

과제

데이터 프로파일링 문제는 일반적으로 관련된 작업의 복잡성에서 비롯됩니다. 보다 구체적으로 다음을 기대할 수 있습니다.

  • 비용과 시간이 많이 소요됨: 데이터 프로파일링은 성공적인 프로그램을 구현하려고 할 때 매우 복잡해질 수 있는데, 이는 부분적으로는 일반적인 조직에서 수집하는 데이터의 양이 많기 때문입니다. 이는 결과를 분석하기 위해 숙련된 전문가를 고용한 다음 올바른 툴 없이 결정을 내리는 데 매우 비용이 많이 들고 시간이 많이 걸리는 작업이 될 수 있습니다.
  • 불충분한 자원: 데이터 프로파일링 프로세스를 시작하기 위해 회사는 데이터를 모두 한 곳에 모아야 하지만 그렇지 않은 경우가 많습니다. 데이터가 여러 부서에 걸쳐 존재하고 훈련된 데이터 전문가가 없는 경우 회사 전체의 데이터 프로파일링이 매우 어려워질 수 있습니다.
데이터 프로파일링 툴 및 모범 사례

접근 방식이 무엇이든 다음 데이터 프로파일링 툴 및 모범 사례는 데이터 프로파일링의 정확성과 효율성을 최적화합니다.

열 프로파일링: 이 방법은 테이블을 스캔하여 각 열에 각 값이 표시되는 횟수를 계산합니다. 열 프로파일링은 열 내에서 빈도 분포와 패턴을 찾는 데 유용할 수 있습니다.

교차 열 프로파일링: 이 기술은 키 분석과 종속성 분석의 두 가지 프로세스로 구성됩니다. 키 분석 프로세스는 가능한 기본 키를 스카우트하여 속성 값의 배열을 확인합니다. 종속성 분석 프로세스는 데이터 집합 내에 포함된 관계 또는 패턴을 식별하기 위해 작동합니다.

크로스 테이블 프로파일링: 이 기법은 키 분석을 사용하여 표류 데이터를 식별합니다. 외래 키 분석은 분리된 레코드 또는 일반적인 차이점을 식별하여 서로 다른 테이블의 열 집합 간의 관계를 조사합니다.

데이터 규칙 유효성 검사: 이 방법은 설정된 규칙 및 표준에 따라 데이터 세트를 평가하여 실제로 사전 정의된 규칙을 따르고 있는지 확인합니다.

키 무결성: 키가 항상 데이터에 존재하고 문제가 될 수 있는 분리된 키를 식별하도록 합니다.

카디널리티: 이 기술은 데이터 세트 간의 일대일 및 일대다와 같은 관계를 확인합니다.

패턴 및 주파수 분포: 이 기술을 사용하면 데이터 필드의 형식이 올바르게 지정됩니다.

데이터 프로파일링 사용 사례

데이터 프로파일링은 산업 전반의 여러 컨텍스트에서 정확성, 품질 및 유용성을 향상시킬 수 있지만 더 두드러진 사용 사례는 다음과 같습니다.

데이터 변환: 데이터를 처리하려면 먼저 사용 가능하고 체계적인 집합으로 변환해야 합니다. 이는 예측 모델을 만들고 데이터를 검사하기 전에 중요한 단계이므로 이러한 단계 전에 데이터 프로파일링을 수행해야 합니다. 이는 데이터 변환을 지원하기 위해 구축된 클라우드 네이티브 데이터베이스인 IBM Db2를 통해 수행할 수 있습니다. 

또한ELT(추가, 로드, 변환) 및 ETL(추출, 변환, 로드) 은 원시 데이터를 소스 시스템에서 대상 데이터베이스로 이동하는 데이터 통합 프로세스입니다. IBM은 비즈니스 지원 데이터 파이프라인을 지원하고 기업이 효율적으로 확장하는 데 필요한 툴을 제공하는 데이터 통합 서비스 및 솔루션을 제공합니다.

데이터 통합: 여러 데이터세트를 제대로 통합하기 위해서는 먼저 각 데이터세트 간의 관계를 이해해야 합니다. 이는 데이터의 메트릭을 이해하고 이를 연결하는 방법을 결정할 때 매우 중요한 단계입니다. 

쿼리 최적화: 회사에 대한 가장 정확하고 최적화된 정보를 얻으려면 데이터 프로파일링이 핵심입니다. 데이터 프로파일링은 데이터베이스 특성에 대한 정보를 고려하여 각 데이터베이스에 대한 통계를 생성합니다. IBM i 7.2 소프트웨어는 바로 이러한 목적을 위한 데이터베이스 성능 및 쿼리 최적화를 제공합니다. 데이터베이스 전환의 목표는 시스템 리소스를 최대한 활용하여 쿼리의 응답 시간을 최소화하는 것입니다.

관련 솔루션
IBM InfoSphere 정보 분석기

IBM InfoSphere 정보 분석기는 데이터의 콘텐츠와 구조를 평가하여 일관성과 품질을 평가합니다. 또한 InfoSphere 정보 분석기를 사용하면 추론을 수행하고 이상 징후를 식별하여 데이터의 정확도를 높일 수 있습니다.

IBM InfoSphere 정보 분석기
IBM InfoSphere QualityStage 

IBM InfoSphere QualityStage는 데이터 품질 및 정보 거버넌스 이니셔티브를 지원하도록 설계되었습니다. 이를 통해 데이터를 조사, 정리 및 관리할 수 있으므로 고객, 공급업체, 위치 및 제품을 비롯한 주요 엔티티를 일관되게 파악할 수 있습니다.

IBM InfoSphere QualityStage
다음 단계 안내

오픈 데이터 레이크하우스 아키텍처를 기반으로 특별 제작된 데이터 저장소인 IBM watsonx.data를 통해 어디서나 모든 데이터에 대한 AI 워크로드를 확장할 수 있습니다.

watsonx.data 살펴보기 라이브 데모 예약하기