CRISP-DM 도움말 개요

CRISP-DM(Cross-Industry Standard Process for Data Mining의 약자)은 데이터 마이닝 작업을 안내하기 위해 업계에서 검증된 방법입니다.

  • 방법론으로서, 이 방법은 프로젝트의 일반적 단계에 대한 설명, 각 단계와 관련된 작업 및 이러한 작업 사이의 관계 설명을 포함합니다.
  • 프로세스 모델로서, CRISP-DM은 데이터 마이닝 라이프사이클의 개요를 제공합니다.
그림 1. 데이터 마이닝 라이프사이클
데이터 마이닝 라이프사이클

라이프사이클 모델은 6개의 단계로 구성되며 단계 사이에는 가장 중요하고 빈번한 종속 항목을 표시하는 화살표가 있습니다. 단계의 순서는 엄격하지 않습니다. 결국, 대부분의 프로젝트는 필요에 따라 단계 사이를 앞뒤로 이동합니다.

CRISP-DM 모델은 유연하므로 쉽게 사용자 정의할 수 있습니다. 예를 들어, 조직에서 자금 세탁을 감지하는 것이 목표라면 특정 모델링 목적 없이 대량의 데이터를 조사하게 될 것입니다. 모델링 대신에, 사용자의 작업은 재무 데이터에서 의심스런 패턴을 밝히기 위해 데이터 탐색 및 시각화에 초점을 맞출 것입니다. CRISP-DM을 사용하면 특정 요구사항에 맞는 데이터 마이닝 모델을 작성할 수 있습니다.

이러한 상황에서 모델링, 평가 및 배포 단계는 데이터 이해 및 준비 단계보다 관련성이 부족할 수 있습니다. 그러나 장기 계획 및 이후의 데이터 마이닝 목적을 위해 이러한 이후 단계 동안 제기된 일부 질문을 고려하는 것은 여전히 중요합니다.