모델 드리프트란 무엇입니까?| IBM

게시일: 2024년 1월 18일
기고자: Jim Holdsworth

모델 드리프트란 무엇입니까?

모델 드리프트는 데이터 변경 또는 입력 변수와 출력 변수 간의 관계 변경으로 인한 모델 성능 저하를 나타냅니다. 모델 붕괴라고도 하는 모델 드리프트는 모델 성능에 부정적인 영향을 미쳐 잘못된 의사 결정과 잘못된 예측을 초래할 수 있습니다.

드리프트를 감지하고 완화하기 위해 조직은 데이터 및 인공 지능 플랫폼의 성능을 모니터링하고 관리할 수 있습니다. 모델의 성능은 처음에는 순조롭게 시작할 수 있지만, 시간이 지남에 따라 제대로 모니터링하지 않으면 가장 잘 훈련되고 편향되지 않은 AI 모델이라도 일단 배포되면 원래 매개변수에서 '드리프트'하여 원치 않는 결과를 생성할 수 있습니다.

AI 모델의 훈련이 수신 데이터와 일치하지 않으면 해당 데이터를 정확하게 해석할 수 없거나 해당 라이브 데이터를 사용하여 정확한 예측을 안정적으로 수행할 수 없습니다. 드리프트를 신속하게 감지하고 완화하지 않으면 드리프트가 더 심해져 운영에 대한 피해가 커질 수 있습니다.

과거 데이터를 사용하여 구축한 모델은 빠르게 정체될 수 있습니다. 많은 경우, 새로운 데이터 포인트(새로운 변형, 새로운 패턴, 새로운 트렌드 등)가 항상 유입되고 있으며, 이는 이전의 과거 데이터로는 포착할 수 없습니다.

AI 거버넌스가 엔터프라이즈 AI 확장을 위해 비즈니스에 필수적인 이유

AI 채택을 가로막는 장벽, 특히 AI 거버넌스 및 위험 관리 솔루션의 부족에 대해 알아보세요.

관련 내용

파운데이션 모델에 대한 가이드 등록하기

모델 드리프트의 원인

세상은 끊임없이 변화하기 때문에 끊임없이 변화하는 데이터에 따라 세상을 이해하는 데 사용되는 모델도 지속적으로 검토하고 업데이트해야 합니다. 다음은 해결해야 할 세 가지 유형의 모델 드리프트이며, 각각 다른 원인이 있습니다.

개념 드리프트

첫 번째는 개념 드리프트로, 입력 변수와 대상 변수 사이에 이동이 있을 때 발생하며, 이 시점에서 정의가 더 이상 유효하지 않기 때문에 알고리즘이 오답을 제공하기 시작합니다. 독립 변수의 변화는 다음과 같은 다양한 기간에 걸쳐 영향을 미칠 수 있습니다.

계절별

개념 드리프트는 날씨 변화에 따른 구매 행동의 계절성과 같이 정기적으로 반복되고 사라집니다. 겨울철 기후에서는 일반적으로 늦가을과 초겨울에 눈삽과 제설기 판매가 증가합니다. 예상 강설량에 따라 지리적 조정도 이루어져야 합니다.

갑자기

예상치 못한 개발로 인해 새로운 구매 패턴이 생길 수 있습니다. 예를 들어 ChatGPT에 대한 갑작스러운 홍보로 인해 AI 하드웨어 및 소프트웨어 제품에 대한 수요가 증가하고 AI 관련 기업의 주가 가치가 상승할 수 있습니다. 해당 뉴스가 게시되기 전에 훈련된 예측 모델로는 이후의 결과를 예측할 수 없었습니다. 또 다른 예로는 코로나19 팬데믹이 도래하면서 게임과 운동 장비 판매가 급증한 반면 레스토랑과 호텔의 방문객 수는 훨씬 감소하는 등 행동에 갑작스러운 변화가 발생했습니다.

점진적

일부 드리프트는 점진적으로 또는 예상 속도로 발생합니다. 예를 들어, 스패머와 해커는 수년 동안 다양한 도구와 트릭을 사용해 왔습니다. 보호 소프트웨어와 스팸 필터가 개선됨에 따라 악의적인 행위자는 그에 따라 게임을 강화하고 있습니다. 디지털 상호 작용을 보호하도록 설계된 모든 AI는 이에 발맞춰야 합니다. 정적 모델은 곧 쓸모가 없어질 것입니다.

데이터 드리프트

두 번째는 입력 데이터의 기본 데이터 분포가 변경된 데이터 드리프트입니다. 소매업에서 제품 판매는 다른 신제품의 출시 또는 경쟁 제품의 단종에 의해 영향을 받을 수 있습니다. 또는 웹사이트가 처음에는 젊은 층에 의해 채택되었다가 이후 노년층의 호응을 얻는 경우, 젊은 사용자의 사용 패턴에 기반한 원래 모델이 고령 사용자층에서는 잘 작동하지 않을 수 있습니다.

업스트림 데이터 변경

세 번째는 데이터 파이프라인이 변경될 때 발생하는 업스트림 데이터 변경입니다. 예를 들어, 업스트림 데이터를 다른 통화(예: USD 대 유로)로 변경하거나, 킬로미터 대신 마일 단위로 측정하거나, 섭씨 대신 화씨 단위로 온도를 변경할 수 있습니다. 이러한 변경은 데이터 레이블 지정 방식의 변경을 설명하도록 구축되지 않은 모델을 무너뜨릴 수 있습니다.

모델 드리프트 방지를 위한 모범 사례

조직에서 모델 드리프트를 감지하고 수정하려면 다음 사항을 고려해야 합니다.

드리프트 감지 자동화

프로덕션 데이터가 모델의 훈련 데이터와 다르기 때문에 배포 후 며칠 내에 AI 모델의 정확도가 저하될 수 있습니다. 이로 인해 잘못된 예측과 심각한 위험 노출이 발생할 수 있습니다. 조직은 모델의 정확도가 사전 설정된 임계값 아래로 감소(또는 드리프트)할 때 자동으로 감지하는 AI 프로그램 및 모니터링 도구를 사용해야 합니다. 모델 드리프트를 탐지하는 이 프로그램은 어떤 트랜잭션이 드리프트를 유발했는지 추적하여 레이블을 다시 지정하고 모델을 재훈련하는 데 사용할 수 있도록 하여 런타임 중에 예측력을 복원해야 합니다.

드리프트를 측정하는 방법에는 두 가지가 있습니다. 첫 번째는 통계적 메트릭을 사용하는 통계입니다. 대부분의 메트릭은 일반적으로 기업 내에서 이미 사용 중이기 때문에 구현하기가 더 쉬운 경우가 많습니다. 두 번째는 모델 기반입니다. 이는 포인트 또는 포인트 그룹과 참조 기준선 간의 유사성을 측정합니다.

모델 테스트 자동화

조직은 라이프사이클 전반에 걸쳐 AI 모델을 주기적으로 테스트해야 합니다. 이 테스트에는 다음이 포함됩니다.

편향과 드리프트를 감지하는 테스트를 통해 사전 프로덕션에서 모델을 검증한 다음 테스트 보고서를 생성합니다.
모델에 대한 성공적인 배포 전 테스트 구성을 배포된 모델 버전으로 전송하고 자동화된 테스트를 계속 진행합니다.
모델, 데이터 및 테스트 결과 정보를 기록 시스템과 동기화합니다.
일관되고 신뢰할 수 있는 알림을 제공하고 팀이 모델 모니터링 대신 모델 개발에 집중할 수 있는 더 많은 시간을 제공할 수 있는 자동화입니다.

통합 환경에서 관리

Forrester의 Total Economic Impact 연구에 따르면, “통합된 데이터 및 AI 환경에서 모델을 구축, 실행 및 관리함으로써 [조직]은 AI 모델이 어디서나 공정하고 설명 가능하며 규정을 준수하도록 보장할 수 있습니다. 또한 이 엔드투엔드 AI 접근 방식은 조직이 모델 드리프트와 편향을 감지하고 수정하는 데 도움을 주며 AI 모델이 생산 중일 때 모델 위험을 관리할 수 있도록 지원합니다."

가장 좋은 방법은 중앙 대시보드에서 모든 모델을 관리하는 것입니다. 통합 접근 방식은 조직이 메트릭을 지속적으로 추적하고 개발, 검증 및 배포를 통해 정확성과 데이터 일관성이 떨어지지 않도록 팀에 경고할 수 있습니다. 중앙 집중식의 전체적인 보기는 조직이 사일로를 허물고 전체 데이터 계보에 걸쳐 더 많은 투명성을 제공하는 데 도움이 될 수 있습니다.

지속적인 모니터링

생산 및 학습 데이터와 모델 예측을 실시간으로 비교하는 AI 모델을 통해 드리프트 시나리오와 규모를 감지합니다. 이렇게 하면 드리프트를 빠르게 찾아내고 즉시 재훈련을 시작할 수 있습니다. 이 탐지는 머신 러닝 연산(MLOps)이 반복적인 것처럼 반복적으로 이루어집니다.

근본 원인 분석

시간 기반 분석 은 드리프트가 어떻게 진화했고 언제 발생했는지 확인하는 데 도움이 됩니다. 예를 들어 매주 검사를 실시하면 드리프트가 매일 어떻게 변화했는지 알 수 있습니다. 타임라인을 분석하면 드리프트가 점진적인지 갑작스러운지 확인하는 데도 도움이 될 수 있습니다.

모델 재훈련

관련성이 높은 최신 샘플이 추가된 새로운 훈련 데이터 세트를 사용합니다. 목표는 대규모 언어 모델(LLM)을 빠르고 정확하게 프로덕션으로 되돌리는 것입니다. 모델을 재훈련해도 문제가 해결되지 않으면 새 모델이 필요할 수 있습니다.

실시간으로 ML 모델 업데이트

조직은 배치 데이터로 모델을 훈련하는 대신 최신 실제 데이터를 사용하는 즉시 머신 러닝(ML) 모델을 업데이트하여 "온라인 학습"을 연습할 수 있습니다.

입력 데이터 확인

모델을 훈련하는 데 사용되는 데이터가 실제로 사용할 프로덕션 데이터와 크게 다르기 때문에 모델이 드리프트되는 것처럼 보일 수 있습니다. 의료 사용 사례에서 훈련에는 고해상도 스캔이 사용되지만 현장에서는 저해상도 스캔만 사용할 수 있는 경우 결과가 정확하지 않습니다.