탐색적 데이터 분석(EDA)은 데이터 과학자가 데이터 세트를 분석 및 조사하고 주요 특성을 요약하는 데 사용하며, 종종 데이터 시각화 방법을 사용합니다.
EDA는 필요한 답변을 얻기 위해 데이터 소스를 가장 잘 조작하는 방법을 결정하는 데 도움이 되므로 데이터 과학자가 더 쉽게 패턴을 발견하고, 이상 징후를 발견하고, 가설을 테스트하고, 가정을 확인할 수 있습니다.
EDA는 주로 공식 모델링 또는 가설 테스트 작업 외에 데이터가 무엇을 드러낼 수 있는지 확인하는 데 사용되며 데이터 세트 변수와 이들 간의 관계를 더 잘 이해할 수 있도록 합니다. 또한 데이터 분석을 위해 고려 중인 통계 기법이 적절한지 판단하는 데도 도움을 줄 수 있습니다. 1970년대 미국 수학자 존 튜키(John Tukey)가 처음 개발한 EDA 기술은 오늘날에도 데이터 디스커버리 프로세스에서 널리 사용되는 방법입니다.
애플리케이션, 분석 및 생성형 AI에 적합한 데이터베이스를 활용하는 방법을 알아보세요.
생성형 AI에 관한 eBook 등록
EDA의 주요 목적은 가정을 하기 전에 데이터를 살펴보는 데 도움을 주는 것입니다. 이는 명백한 오류를 식별하고, 데이터 내의 패턴을 더 잘 이해하고, 이상값이나 비정상적인 이벤트를 감지하고, 변수 간의 흥미로운 관계를 찾는 데 도움이 될 수 있습니다.
데이터 과학자는 탐색적 분석을 사용하여 생성한 결과가 유효하고 원하는 비즈니스 결과 및 목표에 적용 가능한지 확인할 수 있습니다. EDA는 또한 이해관계자가 올바른 질문을 하고 있는지 확인하여 도움을 줍니다. EDA는 표준 편차, 범주형 변수 및 신뢰 구간에 대한 질문에 답하는 데 도움이 될 수 있습니다. EDA가 완료되고 인사이트가 도출되면 EDA의 기능을 사용하여 머신 러닝을 포함한 보다 정교한 데이터 분석 또는 모델링을 수행할 수 있습니다.
EDA 도구로 수행할 수 있는 특정 통계 기능 및 기법은 다음과 같습니다.
EDA에는 네 가지 기본 유형이 있습니다.
다변량 그래픽의 다른 일반적인 유형은 다음과 같습니다.
EDA를 만드는 데 사용되는 가장 일반적인 데이터 과학 도구는 다음과 같습니다.
이러한 접근 방식의 차이점에 대한 자세한 내용은 'Python과 R 비교: 차이점은 무엇인가?를 참조하세요.