데이터 정리란 무엇인가요?

작성자

Phill Powell

Staff Writer

IBM Think

Ian Smalley

Staff Editor

IBM Think

데이터 정리란 무엇인가요?

데이터 정리는 조직이 저장하고 있는 데이터의 양을 제한하기 위해 시작하는 프로세스입니다.

데이터 정리 기술은 원본 데이터 세트에서 발견되는 중복성을 줄임으로써 원래 소싱된 대량의 데이터를 축소된 데이터로 효율적으로 저장할 수 있도록 지원합니다.

먼저 '데이터 정리'라는 용어가 자동적으로 정보 손실을 의미하지 않는다는 점을 강조해야 합니다. 대부분의 경우, 데이터 정리는 최적화 프로세스를 거친 후 관련 데이터를 보다 실용적인 구성으로 재조합하여 더 스마트한 방식으로 데이터를 저장한다는 의미일 뿐입니다.

또한 데이터 감소는 효율성을 개선하기 위해 동일한 데이터의 추가적 사본을 제거하는 데이터 중복 제거와도 같은 개념이 아닙니다. 더 정확하게 말하면 데이터 정리는 목표를 달성하기 위해 데이터 중복 제거 및 데이터 통합과 같은 다양한 활동의 여러 측면을 결합합니다.

데이터를 더 종합적으로 보기

데이터 정리의 맥락에서 데이터를 논의할 때, 일반적으로 사용되는 다원화된 형태의 데이터가 아닌 단일 형태의 데이터에 대해 이야기하는 경우가 많습니다. 예를 들어, 데이터 정리에는 개별 데이터 포인트의 실제 물리적 크기를 정의하는 측면이 포함되어 있습니다.

데이터 정리 활동에는 상당한 양의 데이터 과학이 관련되어 있습니다. 자료가 상당히 복잡해 간결하게 요약하기 어려울 수 있으며, 이러한 딜레마로 인해 보통 수준의 지능을 가진 사람이 특정 머신 러닝 모델을 이해할 수 있는 능력, 즉 해석 가능성이라는 용어가 생겨났습니다.

이러한 용어 중 일부는 거의 미시적인 관점에서 본 데이터이기 때문에 의미를 파악하기 어려울 수 있습니다. 다른 상황에서는 일반적으로 '거시적' 형태의 데이터에 대해 논의하지만, 데이터 정리에서는 가장 '미시적' 의미의 데이터에 대해 이야기하는 경우가 많습니다. 더 정확히 말하자면, 이 주제에 대한 대부분의 논의에서는 거시적 차원의 논의와 미시적 차원의 논의가 모두 필요합니다.

AI 아카데미

데이터 관리가 생성형 AI 구현의 비결일까요?

생성형 AI를 성공적으로 사용하기 위해 고품질 데이터가 필수적인 이유를 알아보세요.

에피소드로 이동

데이터 정리의 이점

조직이 보유하고 있는 데이터의 양을 줄이면 일반적으로 스토리지 공간 사용량이 줄어들기 때문에 스토리지 비용이 절감되어 상당한 재정적 절감 효과를 거둘 수 있습니다.

데이터 정리는 데이터 효율성 향상과 같은 다른 이점도 제공합니다. 데이터 정리를 달성한 후 그 결과로 얻은 데이터는 의사 결정 작업을 크게 간소화할 수 있는 정교한 데이터 분석 애플리케이션을 포함하여 다양한 방식으로 인공 지능(AI) 방식에 더 쉽게 사용될 수 있습니다.

예를 들어 스토리지 가상화를 성공적으로 사용하면 서버와 데스크톱 환경 간의 조정을 지원하여 전반적인 효율성과 안정성을 높일 수 있습니다.

데이터 정리는 데이터 마이닝 활동에서 핵심적인 역할을 합니다. 채굴된 데이터는 데이터 분석에 사용되기 전에 최대한 깨끗하고 준비된 상태를 갖춰야 합니다.

데이터 정리의 유형

조직은 다음과 같은 방법을 사용해 데이터 정리를 달성할 수 있습니다.

차원 축소

데이터 차원이라는 개념이 이 전체 개념을 뒷받침합니다. 차원은 단일 데이터 세트에 할당된 속성(또는 기능)의 수를 나타냅니다. 하지만 차원이 많을수록 해당 데이터 세트에 더 많은 데이터 스토리지 공간이 필요하다는 상충 관계가 존재합니다. 또한 차원이 높을수록 데이터가 희소해지는 경향이 있어 필요한 이상값 분석이 복잡해집니다.

차원 축소는 데이터의 '노이즈'를 제한하고 데이터를 더 잘 시각화할 수 있게 함으로써 이에 대응합니다. 차원 축소의 대표적인 예는 웨이블릿 변환 방법으로, 다양한 해상도 수준에서 객체 사이에 존재하는 상대적 거리를 유지하여 이미지 압축을 지원합니다.

특징 추출은 원본 데이터를 수치화된 특징으로 바꾸고 머신 러닝과 함께 작동하는 데이터의 또 다른 변환 방법입니다. 이는 대규모 데이터 세트의 차원을 줄이는 또 다른 방법인 주성분 분석(PCA)과는 달리 대규모 데이터 세트의 대부분의 데이터를 유지하면서 대규모 변수 세트를 더 작은 세트로 변환합니다.

수치 축소

다른 방법은 더 작고 데이터 집약적인 형식으로 데이터를 표현하는 것입니다. 수치 축소에는 매개변수 방식에 기반한 방법과 비매개변수 방식에 기반한 방법의 두 가지 유형이 있습니다. 회귀와 같은 매개변수 방법은 데이터 자체를 배제하고 모델 매개변수에 집중합니다.마찬가지로 데이터 내의 하위 공간에 초점을 맞추는 로그-선형 모델을 사용할 수도 있습니다. 반면 히스토그램과 같이 수치 데이터가 분포하는 방식을 보여주는 방법인 비매개변수적 방법은 모델에 전혀 의존하지 않습니다.

데이터 큐브 취합

데이터 큐브는 데이터를 시각적으로 저장하는 방법입니다. '데이터 큐브'라는 용어는 실제로는 더 작은 정육면체로 구성된 커다란 다차원 큐브를 설명하는 것이기 때문에 그 함축된 의미 때문에 오해의 소지가 있습니다. 각 정육면체는 해당 데이터 큐브 내의 전체 데이터의 일부 측면, 특히 측정값 및 차원과 관련된 데이터 조각을 나타냅니다. 따라서 데이터 큐브 취합은 데이터를 다차원 큐브 시각적 형식으로 통합하는 것으로, 해당 목적을 위해 특별히 구축된 고유한 컨테이너를 제공하여 데이터 크기를 줄입니다.

데이터 이산화

데이터 정리를 위해 사용되는 또 다른 방법으로는 데이터 이산화가 있습니다. 이 방법은 각각 결정된 데이터 값에 해당하는 정의된 간격 집합을 기반으로 데이터 값의 선형 집합을 생성합니다.

데이터 압축

파일 크기를 제한하고 성공적인 데이터 압축을 달성하기 위해 다양한 유형의 인코딩을 사용할 수 있습니다. 일반적으로 데이터 압축 기술은 무손실 압축 또는 손실 압축을 사용하는 것으로 간주되며, 이 두 가지 유형에 따라 그룹화됩니다. 무손실 압축에서는 인코딩 기술과 알고리즘을 통해 데이터 크기를 줄이며, 필요한 경우 완전한 원본 데이터를 복원할 수 있습니다. 반면 손실 압축은 다른 방법을 사용하여 압축을 수행하며, 처리된 데이터는 보존할 가치가 있지만 무손실 압축과 마찬가지로 정확한 사본이 아닙니다.

데이터 사전 처리

일부 데이터는 데이터 분석 및 데이터 축소 프로세스를 거치기 전에 정리, 취급 및 처리해야 합니다. 이러한 과정에는 데이터를 아날로그에서 디지털로 변경하는 작업이 포함될 수 있습니다. 데이터 사전 처리의 또 다른 예는 비닝으로, 다양한 유형의 데이터를 정규화하고 전반적으로 데이터 무결성을 보장하기 위해 중앙값을 활용하는 것입니다.

IBM, 2025년 3분기 Forrester Wave™ 통합 iPaaS 부문 리더로 선정

Forrester가 IBM을 현재 제공 제품/서비스(Current Offering) 부문에서 최고 점수로 리더로 선정한 이유를 알아보려면 보고서를 읽어보세요. 이 리더십이 광범위한 엔터프라이즈 통합 전략 내에서 안전하고 확장 가능한 파일 전송을 제공하여 IBM® webMethods MFT를 강화하는 방법을 알아보세요.