홈
topics
이상 활동 감지
게시일: 2023년 12월 12일
기고자: Joel Barnard
이상 현상 감지 또는 이상값 탐지란 표준 또는 예상에서 벗어나 나머지 데이터 세트와 일치하지 않게 되는 관측, 이벤트 또는 데이터 포인트를 식별하는 것을 말합니다.
이상 현상 감지는 분석가와 과학자가 차트를 연구하여 비정상적으로 보이는 모든 요소를 찾는 통계 분야에서 오랜 역사를 지니고 있습니다. 오늘날 이상 현상 감지는 인공 지능(AI)과 머신 러닝(ML)을 활용하여 데이터 세트의 정상 동작에서 예기치 않은 변화를 자동으로 식별합니다.
비정상적인 데이터는 인프라 장애, 업스트림 소스의 호환성이 손상되는 변경 사항 또는 보안 위협과 같이 잘 보이지 않는 심각한 인시던트를 알릴 수 있습니다. 이상 현상은 아키텍처를 최적화하거나 마케팅 전략을 개선할 기회를 포착할 수도 있습니다.
이상 현상 감지는 여러 산업 분야에 걸쳐 다양한 사용 사례를 보유하고 있습니다. 예를 들어, 금융 분야에서는 사기 탐지를 위해, 제조 분야에서는 결함이나 장비 오작동을 식별하기 위해, 사이버 보안 분야에서는 비정상적인 네트워크 활동을 탐지하기 위해, 의료 분야에서는 비정상적인 환자 상태를 식별하기 위해 사용됩니다.
이상값 탐지는 이상 현상이 드문 경우가 많은데다 정상적인 동작의 특성 자체가 복잡하고 동적일 수 있기 때문에 어려울 수 있습니다. 비즈니스 관점에서는 오탐이나 데이터 노이즈가 아닌 실제 이상 현상을 식별하는 것이 필수적입니다.
선제적 데이터 관측 가능성이 어떻게 데이터 인시던트를 조기에 감지하고 이를 더 빠르게 해결하는 데 도움이 되는지 알아보세요.
데이터 이상 현상은 데이터 과학 분야에서 중대한 영향을 미쳐 부정확하거나 오해의 소지가 있는 결론으로 이어질 수 있습니다. 예를 들어, 단일 이상값으로 인해 데이터 세트의 평균이 크게 왜곡되어 데이터가 부정확하게 표현될 수 있습니다. 또한 데이터 이상 현상은 머신 러닝 알고리즘의 성능에 영향을 미칠 수 있는데, 이는 모델이 데이터 내의 기본 패턴이 아닌 노이즈에 맞춰지도록 만들 수 있기 때문입니다.
데이터 이상 현상을 식별하고 처리하는 것이 중요한 몇 가지 이유:
데이터 품질 개선: 데이터 이상 현상을 식별하고 처리하면 데이터 품질을 크게 향상시킬 수 있으며, 이는 정확하고 신뢰할 수 있는 데이터 분석에 필수적입니다. 분석가는 데이터 이상 현상을 해결함으로써 데이터 세트의 노이즈와 오류를 줄여 데이터가 실제 기본 패턴을 더 잘 나타낼 수 있도록 보장할 수 있습니다.
의사 결정 향상: 데이터 기반 의사 결정은 정확하고 신뢰할 수 있는 데이터 분석에 의존하여 의사 결정을 내립니다. 분석가는 데이터 이상 현상을 식별하고 처리함으로써 발견한 조사 결과를 더욱 신뢰할 수 있게 되어, 더 나은 정보에 기반한 의사 결정과 더 나은 결과로 이어질 수 있습니다.
머신 러닝 성능 최적화: 데이터 이상 현상은 머신 러닝 알고리즘의 성능에 큰 영향을 미칠 수 있는데, 이는 모델이 데이터 내의 기본 패턴이 아닌 노이즈에 맞춰지도록 만들 수 있기 때문입니다. 분석가는 데이터 이상을 식별하고 처리함으로써 머신 러닝 모델의 성능을 최적화하여 정확하고 신뢰할 수 있는 예측을 제공하도록 보장할 수 있습니다.
이상 현상 감지 시스템이 발견할 수 있는 데이터 이상 현상 유형은 비의도적 이상 현상과 의도적 이상 현상, 이렇게 두 가지의 일반적인 유형 중 하나에 속합니다.
비의도적 이상 현상은 데이터 수집 과정에서의 오류나 노이즈로 인해 표준에서 벗어난 데이터 포인트를 말합니다. 이러한 오류는 센서 결함이나 데이터 입력 중 인적 오류와 같은 문제에서 비롯되며, 체계적일 수도 무작위적일 수도 있습니다. 비의도적 이상 현상은 데이터 세트를 왜곡하여 정확한 인사이트를 도출하기 어렵게 만들 수 있습니다.
반면, 의도적 이상 현상은 특정 작업이나 이벤트로 인해 표준에서 벗어난 데이터 포인트입니다. 이러한 이상 현상은 특이한 발생 사례나 추세를 부각시킬 수 있으므로 데이터 세트에 대한 귀중한 인사이트를 제공할 수 있습니다.
예를 들어 연휴 시즌에 갑자기 매출이 급증하는 것은 일반적인 매출 패턴과는 다르지만 실생활의 이벤트로 인해 예상되는 것이기 때문에 의도적 이상 현상으로 간주할 수 있습니다.
비즈니스 데이터의 경우 세 가지 주요 시계열 데이터 이상 현상, 즉 포인트 이상 현상, 맥락적 이상 현상, 집단 이상 현상이 존재합니다.
포인트 이상 현상은 글로벌 이상값이라고도 하며, 나머지 데이터 세트에서 멀리 떨어진 외부에 존재하는 개별 데이터 포인트입니다. 이는 의도적일 수도 비의도적일 수도 있으며 오류, 노이즈 또는 특이한 발생 사례로 인해 발생할 수 있습니다.
포인트 이상 현상의 예로는 사용자의 모든 이전 인출액보다 훨씬 큰 금액이 은행 계좌에서 인출된 경우를 들 수 있습니다.
맥락적 이상 현상은 특정 맥락 내에서 표준에서 벗어난 데이터 포인트를 말합니다. 이러한 이상 현상은 개별적으로 고려할 때는 꼭 이상값이라 할 수는 없지만 특정 맥락 내에서 보면 이상값이 됩니다.
예를 들어, 가정 내 에너지 사용량을 생각해 보시길 바랍니다. 일반적으로 집에 가족 구성원이 없는 정오에 에너지 소비가 갑자기 증가하는 경우, 해당 이상 현상은 맥락적 이상 현상이 될 것입니다. 이 데이터 포인트는 아침이나 저녁(사람들이 주로 집에 있는 시간대)의 에너지 사용량과 비교하면 이상값이 아닐 수도 있지만, 하루 중 이 현상이 발생하는 시간대라는 맥락에서 보면 비정상적인 수치입니다.
집단 이상 현상은 개별 인스턴스가 정상으로 보일지라도, 총체적으로 보면 표준에서 벗어난 데이터 인스턴스 세트를 포함합니다.
이러한 유형의 이상 현상의 예로는 동시에 여러 IP 주소에서 트래픽이 갑자기 급증하는 현상을 보이는 네트워크 트래픽 데이터 세트가 있습니다.
이상 현상 감지 시스템을 사용하여 데이터 이상 현상을 감지하는 것은 데이터 분석의 매우 중요한 측면이며, 이를 통해 정확하고 신뢰할 수 있는 조사 결과를 확보할 수 있습니다. 이상 현상 감지 시스템을 구축하는 데에는 다양한 이상 현상 감지 방법을 사용할 수 있습니다.
시각화는 데이터 과학자가 데이터에서 잠재적인 이상값과 패턴을 신속하게 식별할 수 있도록 해주기 때문에 데이터 이상 현상을 감지하는 데 있어 강력한 도구입니다. 분석가는 차트와 그래프를 사용하여 데이터를 플로팅함으로써 데이터 세트에서 비정상적인 데이터 포인트나 추세가 있는지 시각적으로 검사할 수 있습니다.
통계 검정은 데이터 과학자가 관찰된 데이터를 예상 분포 또는 패턴과 비교함으로써 데이터 이상 현상을 감지하는 데 사용할 수 있습니다.
예를 들어, 그럽스 검정(Grubbs test)는 각 데이터 포인트를 데이터의 평균 및 표준 편차와 비교하여 데이터 세트에서 이상값을 식별하는 데 사용할 수 있습니다. 마찬가지로 콜모고로프 스미르노프 검정은 데이터 세트가 정규 분포와 같은 특정 분포를 따르는지 여부를 확인하는 데 사용할 수 있습니다.
머신 러닝 알고리즘은 데이터의 기본 패턴을 학습한 다음 해당 패턴에서 벗어난 부분을 식별하여 데이터 이상 현상을 감지하는 데 사용할 수 있습니다. 가장 일반적인 ML 이상 현상 감지 알고리즘 몇 가지는 다음과 같습니다.
이상 현상 감지 알고리즘은 다양한 머신 러닝 학습 기법을 사용하여 패턴을 식별하고 비정상적인 데이터를 감지하는 방법을 학습할 수 있습니다. 데이터 팀의 학습 데이터 세트 내의 레이블이 지정된 데이터의 양(있는 경우)에 따라 비지도, 지도, 반지도 중 어느 주요 이상 현상 감지 기법을 사용할지 결정됩니다.
비지도 이상 현상 감지 기술을 통해 데이터 엔지니어는 모델이 자체적으로 패턴이나 이상을 발견하는 데 사용하는, 레이블이 지정되지 않은 데이터 세트를 모델에게 제공하여 학습시킵니다. 이러한 기술들은 보다 광범위하고 적절하게 적용되기 때문에 단연코 가장 대표적으로 사용되지만 대규모 데이터 세트와 컴퓨팅 성능이 필요합니다. 비지도 머신 러닝은 인공 신경망에 의존하는 딥 러닝 시나리오에서 가장 흔히 볼 수 있습니다.
지도 이상 현상 감지 기술은 정상 인스턴스와 비정상 인스턴스를 모두 포함하는, 레이블이 지정된 데이터 세트에 대해 학습된 알고리즘을 사용합니다. 일반적으로 레이블이 지정된 학습 데이터를 사용할 수 없는 점과 클래스의 본질적인 불균형 특성으로 인해 이러한 이상 현상 감지 기술은 거의 사용되지 않습니다.
반지도 기술은 비지도 이상 현상 감지와 감지 이상 현상 감지 모두의 긍정적인 특성을 최대한으로 활용합니다. 알고리즘에 레이블이 지정된 데이터의 일부를 제공하면 알고리즘을 부분적으로 학습시킬 수 있습니다. 그런 다음 데이터 엔지니어는 부분적으로 학습된 알고리즘을 사용하여 더 큰 데이터 세트에 자율적으로 레이블을 지정하는데, 이를 “의사 라벨링”이라고 합니다. 신뢰할 수 있다고 판명되면 새로 레이블이 지정된 데이터 포인트가 원래 데이터 세트와 결합되어 알고리즘을 미세 조정합니다.
지도 및 비지도 머신 러닝의 올바른 조합을 찾는 것은 머신 러닝 자동화에 필수적입니다. 이상적으로는, 데이터 분류는 대부분 비지도 방식으로 사람의 개입 없이 수행되는 편이 좋습니다. 그럼에도, 데이터 엔지니어는 평소와 같은 비즈니스의 기준선을 만드는 데 도움이 되는 학습 데이터를 알고리즘에 제공할 수 있어야 합니다. 반지도 접근 방식을 사용하면 특정 이상 현상에 관한 수동 규칙을 만들 수 있는 유연성을 통해 이상 현상 감지를 확장할 수 있습니다.
이상 현상 감지 모델은 은행, 보험, 주식 매매 업계에서 무단 거래, 자금 세탁, 신용 카드 사기, 허위 세금 환급 청구, 비정상적인 매매 패턴과 같은 사기 행위를 실시간으로 식별하는 데 광범위하게 사용됩니다.
사이버 보안에서 침입 탐지 시스템(IDS)은 이상 현상 감지를 사용하여 네트워크 트래픽에서 비정상적이거나 의심스러운 활동을 식별하는 데 도움이 되어, 멀웨어 감염 또는 무단 액세스와 같은 잠재적인 보안 위협이나 공격을 나타내 줍니다.
의료 업계에서는 의료 데이터에서 비정상적인 환자 상태 또는 이상 현상을 식별하여, 질병을 감지하고 환자 건강 상태를 모니터링하며 환자를 보다 효과적으로 치료하는 데 사용됩니다.
제조업에서는 컴퓨터 비전과 함께 이상 현상 감지 알고리즘을 사용하여 고해상도 카메라 영상, 센서 데이터, 생산 메트릭을 분석하여 제품 또는 패키지의 결함을 식별합니다.
서버 로그에서 비정상적인 패턴을 식별하고 패턴과 과거 경험에서 결함을 재구성하여 잠재적인 문제나 장애를 예측함으로써 IT 시스템의 성능을 모니터링하고 운영을 원활하게 유지하는 데 사용됩니다.
이상 현상 감지는 항공, 에너지, 운송과 같은 산업에서 장비 고장이나 유지 관리 요구 사항을 예측하는 데 도움이 됩니다. IoT 기반 센서는 산업 장비에서 데이터를 수집하고 편차를 식별하며 향후 고장을 예측하는 데 사용됩니다.
에너지 소비 패턴을 모니터링하고 사용량의 이상 현상을 식별하여, 보다 효율적으로 에너지를 관리하고 장비 고장을 조기에 감지하는 데 사용됩니다.
전자 상거래에서는 허위 리뷰, 계정 탈취, 비정상적인 구매 활동 등의 사기 행위를 식별하기 위해 이상 현상 감지가 적용됩니다.
또한 기업은 이상 징후 감지 모델을 사용하여 고객 행동의 비정상적인 패턴을 식별함으로써 사기 탐지, 고객 이탈 예측, 마케팅 전략 개선에 도움을 받을 수 있습니다.
IBM® Databand®는 데이터 파이프라인 및 웨어하우스를 위한 관측 가능성 소프트웨어로, 메타데이터를 자동으로 수집하여 과거 데이터를 기반으로 하는 기준선을 구축하고, 이상 징후를 감지하며, 경고를 분류하여 데이터 품질 문제를 해결합니다.
ETL 및 ELT 패턴을 지원하는 IBM® DataStage®는 온프레미스 및 클라우드 모두에서 실시간에 가까운 유연한 데이터 통합을 제공합니다.
AI 시대를 위한 지능형 데이터 카탈로그인 IBM® Knowledge Catalog를 사용하면 위치와 관계없이 데이터, 지식 자산 및 그 관계에 액세스하고, 선별하고, 분류하고, 공유할 수 있습니다.
이 문서에서는 Databand의 이상 현상 감지를 통해 데이터 팀이 데이터 파이프라인 문제를 더 빠르게 식별하여 설정한 데이터 SLA를 더 잘 충족하도록 도움을 받을 수 있는 방법을 알아봅니다.
지도와 비지도, 두 가지의 데이터 과학 접근 방식의 기본 사항을 살펴봅니다. 각자의 상황에 맞는 접근 방식을 찾아보시길 바랍니다.
고품질 데이터를 보장하는 것은 데이터 엔지니어와 전체 조직의 책임입니다. 이 게시물에서는 데이터 품질의 중요성, 데이터 감사 및 모니터링 방법, 주요 이해관계자의 동의를 얻는 방법에 대해 설명합니다.