topics 데이터 중복 제거 데이터 중복 제거란 무엇인가요?
IBM 솔루션으로 데이터 중복 제거 IBM 뉴스레터 구독하기
파란색 추상 점

게시일: 2024년 1월 3일
기고자: Phill Powell, Ian Smalley

데이터 중복 제거란 무엇인가요?

데이터 중복 제거는 동일한 정보의 추가 복사본을 제거하여 중복 데이터를 줄이는 간소화 프로세스입니다. 데이터 중복 제거 또는 일반적으로 줄여서 '중복 제거'의 목표는 조직의 스토리지 요구 사항을 줄이는 것입니다.

조직은 데이터 중복 제거 프로세스와 기술을 구현하여 스토리지 시스템에 고유한 데이터 인스턴스가 하나만 존재하도록 할 수 있습니다. 중복되거나 중복된 데이터는 제거되고 사용자는 데이터의 단일 인스턴스를 가리키게 됩니다.

데이터 중복 제거가 성공적으로 이루어지면 조직의 전반적인 스토리지 사용률을 개선하고 비용을 절감할 수 있습니다.

IBM Z에서 AI로 데이터 이해하기

AI가 해결할 수 있는 일반적인 고객 불만 사항, 현재 사용 가능한 기능 및 IBM Z가 이상적인 AI 플랫폼인 이유를 알아보세요.

관련 내용

eBook에 등록하여 앱을 더 빠르게 현대화하세요.

데이터 중복 제거가 왜 필요한가요?

먼저, 기업은 왜 중복 데이터를 생성할까요? 다음과 같은 이유 중 하나 또는 여러 이유가 적용될 수 있습니다.

  • 조직 또는 부서에서 원본 데이터의 용도를 변경하기 위해서 새 데이터 사본을 만들 수도 있습니다.
  • 회사는 데이터 손실에 대비하여 백업 시스템의 일부로 사본을 보관하려고 할 수 있습니다.
  • 조직에서 동일한 데이터의 사본을 여러 개 보관하고 있지만 서로 다른 형식으로 저장되어 있을 수 있습니다.

또 다른 주요 이유는 그저 데이터 중복이 대부분 여러 부서로 이루어진 조직에서 자주 발생하기 때문입니다. 현대의 비즈니스 환경에서, 데이터는 업무 수행 과정에서 당연하고 유기적인 기능으로서 정기적으로 생성되거나 재창출됩니다. 따라서 실제적 문제는 데이터 생성 또는 복제가 아니라, 과도한 데이터 확산입니다.

이와 관련된 추가적인 재정적 부담이 없다면 데이터 확산도 문제가 되지 않을 수 있습니다. 조직은 IT 아키텍처 내 여러 위치에 데이터를 저장하고 중복성에 신경을 쓰지 않을 수 있습니다.

그러나 데이터 중복의 수가 많아지면 스토리지 비용이 추가로 발생해 재정적 불이익을 겪게 됩니다. 데이터 중복이 생성되지 않도록 막을 수 없는 조직은 새로운 하드웨어 구매 또는 클라우드 스토리지 추가 등 새로운 스토리지 솔루션과 데이터 관리를 구현하는 데 더 많은 인력과 예산을 할당해야 합니다.

데이터 중복 제거의 이점

데이터 중복 제거 기술이 제공하는 가장 확실한 이점은 불필요한 데이터를 제거함으로써 조직이 저장하고 관리해야 하는 데이터의 총량을 줄인다는 점입니다. 따라서 스토리지 공간을 차지하는 데이터가 줄어 조직의 스토리지 용량이 효과적으로 증가합니다.

데이터 중복 제거는 스토리지 비용 절감 외에도 데이터 백업 계획을 강화하고 재해 복구를 보호하기 위한 긴급 조치를 지원하는 등의 다른 주요 이점도 제공합니다.

또 다른 이점은 '데드웨이트(Deadweight)' 데이터를 제거하고 나머지 데이터가 적절하게 정리되었는지 확인하여 데이터 무결성을 활성화하는 것입니다. 중복된 데이터는 더 잘 실행되고, 에너지 소비도 적은 것으로 나타났습니다.

데이터 중복 제거의 또 다른 이점은 가상 데스크톱 인프라(VDI) 배포 환경에서 VDI 원격 데스크톱 뒤에 있는 가상 하드 디스크가 동일하게 작동한다는 점입니다. 인기 있는 서비스형 데스크톱(DaaS) 제품으로는 Microsoft의 Azure Virtual Desktop과 Windows VDI가 있습니다. 이러한 제품은 서버 가상화 프로세스 중에 생성되는 가상 머신(VM)을 만듭니다. 그리고 이러한 가상 머신은 VDI 기술을 강화합니다.

데이터 중복 제거는 어떻게 작동하나요?

가장 기본적인 수준에서 데이터 중복 제거는 자동화된 기능을 통해 데이터 블록의 중복을 파악한 다음 해당 중복을 제거하는 방식으로 작동합니다. 블록 수준에서 작업하면 고유한 데이터 청크를 분석하고 보존할 가치가 있는 것으로 지정할 수 있습니다. 그런 다음 중복 제거 소프트웨어가 동일한 데이터 블록의 반복을 감지하면 해당 반복이 제거되고, 그 자리에 원본 데이터에 대한 참조가 포함됩니다.

또 다른 방법으로는 파일 수준에서 작동하는 데이터 중복 제거가 있습니다. 단일 인스턴스 데이터 스토리지는 파일 시스템 내의 전체 데이터 사본을 비교하지만, 청크나 데이터 블록은 비교하지 않습니다. 파일 중복 제거는 블록 수준 중복 제거와 마찬가지로 원본 파일을 유지하고 불필요한 사본을 제거하는 데 집중합니다.

중복 제거 기술은 데이터 압축 알고리즘(예: LZ77, LZ78)과 같은 방식으로 작동하지 않지만, 둘 다 데이터 중복을 줄이는 일반적인 목표를 추구하는 점에서 유사합니다. 압축 알고리즘의 목표는 동일한 파일을 공유 사본으로 교체하는 것이 아니라 데이터 중복을 효율적으로 인코딩하는 것인데, 중복 제거 기술은 압축 알고리즘보다 더 크고 거시적인 규모로 이를 실현합니다.

데이터 중복 제거 유형

데이터 중복 제거에는 프로세스가 발생하는 시점에 따라 두 가지 기본 유형이 있습니다.

인라인 중복 제거

이 형태의 데이터 중복 제거는 데이터가 시스템 내에서 흐르는 동안 실시간으로 발생합니다. 시스템은 중복된 데이터를 전송하거나 저장하지 않으므로 데이터 트래픽이 적어집니다. 따라서 해당 조직에 필요한 총 대역폭이 감소할 수 있습니다.

사후 처리 중복 제거

이러한 유형의 중복 제거는 데이터가 작성되어 특정 유형의 저장 장치에 배치된 후에 수행됩니다.

두 가지 유형의 데이터 중복 제거는 모두 데이터 중복 제거에 내재된 해시 계산의 영향을 받습니다. 이러한 암호화 계산은 데이터에서 반복되는 패턴을 파악하는 데 반드시 필요합니다. 인라인 중복 제거 중에는 계산이 순간적으로 수행되므로 컴퓨터 기능이 일시적으로 과부하될 수 있습니다. 사후 처리 중복 제거에서는 데이터가 추가된 후 언제든 해시 계산을 수행할 수 있습니다.

중복 제거 유형 간의 미묘한 차이는 이 외에도 더 있습니다. 중복 제거 유형을 분류하는 두 번째 방법은 이러한 프로세스가 발생하는 위치에 따라 분류하는 것입니다.

소스 중복 제거

이 형태의 중복 제거는 새로운 데이터가 생성되는 곳 근처에서 이루어집니다. 시스템은 해당 영역을 검색하고 파일의 새 복사본을 탐지한 다음 제거합니다.

대상 중복 제거

대상 중복 제거는 소스 중복 제거의 반대입니다. 대상 중복 제거에서 시스템은 원본 데이터가 생성된 영역 이외의 영역에 있는 모든 사본을 중복 제거합니다.

이처럼 다양한 유형의 중복 제거 방법이 실행될 수 있으므로 미래를 바라보는 조직은 신중하게 생각하여 중복 제거 유형을 결정하고, 해당 방법과 기업의 고유한 요구 사항 사이에서 균형을 맞춰야 합니다.

많은 사용 사례에서 조직이 선택하는 중복 제거 방법은 다음과 같은 다양한 내부 변수에 따라 결정될 수 있습니다.

  • 생성되는 데이터 세트의 수와 유형
  • 조직의 기본 스토리지 시스템
  • 사용 중인 가상 환경
  • 회사에서 사용하는 앱
관련 솔루션
IBM Storage FlashSystem

운영 중단 가능성을 최소화하고 랜섬웨어 공격 및 기타 사이버 위협으로부터 워크로드를 격리합니다. 사이버 복원력에 속도를 더하여 회사의 손실을 줄이고 더 빠르게 정상 운영으로 복귀할 수 있게 준비하세요.

IBM Storage FlashSystem 살펴보기

IBM Storage Protect

IBM Storage Protect로 데이터 백업 및 복구에 힘을 실어주세요. 물리적 파일 서버의 데이터 복원력을 향상해 백업 서버당 수십억 개의 객체를 관리할 수 있는 확장 가능한 솔루션과 추가적인 효율성을 제공하는 소프트웨어를 만나보세요.

IBM Storage Protect 살펴보기

IBM 서비스형 스토리지

사내 데이터 스토리지 솔루션을 통해 스토리지 인프라 비용을 절감하세요. 데이터만 가져오세요. 스토리지 시스템은 IBM이 책임집니다. 플래시 시스템과 IBM DS8900F 하드웨어는 클라우드처럼 작동하는 보다 유연한 소비 기반 STaaS 모델을 제공합니다.

IBM Storage as a System 살펴보기
리소스 데이터 스토리지란 무엇인가요?

스토리지 디바이스 유형 및 다양한 형식의 데이터 스토리지를 비롯한 데이터 스토리지의 기본 사항을 살펴보세요.

데이터 마이그레이션이란 무엇인가요?

하나의 스토리지 시스템이나 컴퓨팅 환경에서 다른 스토리지 시스템이나 컴퓨팅 환경으로 데이터가 어떻게 흐르는지 더 잘 이해할 수 있습니다.

데이터 아키텍처란 무엇인가요?

성공적인 데이터 관리를 위해 데이터 아키텍처 형태의 확실한 청사진이 필요한 이유를 알아보세요.

데이터 보안이란 무엇인가요?

컴퓨팅이나 비즈니스에서 이보다 더 시급한 주제는 없습니다. 데이터 보호에 대한 기본 사항을 알아보세요.

다음 단계 안내

온프레미스, 하이브리드 클라우드, 가상화 및 컨테이너화된 환경에서 관리 및 운영 복잡성을 간소화하는 고성능 올플래시 스토리지 솔루션인 IBM Storage FlashSystem을 사용하여 데이터 및 인프라 관리를 간소화합니다.

    FlashSystem 스토리지 살펴보기 둘러보기