부스팅이란?

부스팅 알고리즘의 개념과 이 알고리즘이 어떻게 데이터 마이닝 이니셔티브의 예측력을 향상시키는지 알아봅니다.

부스팅은 약한 학습자 집합을 하나의 강력한 학습자로 결합하여 예측 정확도를 향상시키는 앙상블 학습 방법입니다. 부스팅에서는 임의의 데이터 샘플을 선택하여 모델에 맞춘 다음 순차적으로 훈련시킵니다. 즉, 각 모델은 이전 모델의 약점을 보완하려고 합니다. 반복할 때마다 개별 분류기의 약한 규칙이 결합되어 하나의 강력한 예측 규칙을 형성합니다.

더 진행하기 전에 가장 잘 알려진 두 가지 방법인 배깅과 부스팅을 집중 조명하면서 앙상블 학습 범주를 보다 광범위하게 살펴보겠습니다.

앙상블 학습

앙상블 학습은 "집단 지성"을 신뢰합니다. 이는 일반적으로 한 명의 전문가보다 여러 명이 내린 의사 결정이 더 낫다는 것을 의미합니다. 마찬가지로, 앙상블 학습은 보다 정확한 예측을 위해 공동으로 작동하는 기본 학습자 또는 모델의 그룹(또는 앙상블)을 지칭합니다. 기본 학습자 또는 약한 학습자라고 하는 단일 모델은 높은 분산 또는 높은 편향 때문에 개별적으로는 잘 작동하지 않을 수 있습니다. 그러나 약한 학습자가 집계되면 이들의 조합이 편향이나 분산을 줄여 모델 성능을 향상시키므로 강한 학습자를 형성할 수 있습니다.

앙상블 방법은 의사 결정 트리를 사용하여 설명하는 경우가 많습니다. 이 알고리즘은 프루닝을 거치지 않을 경우 과적합(높은 분산 및 낮은 편향)이 발생하기 쉽고, 의사 결정 스텀프(하나의 레벨로 이루어진 의사 결정 트리)와 같이 규모가 매우 작은 경우 과소적합(낮은 분산 및 높은 편향)이 발생할 수 있기 때문입니다. 알고리즘이 훈련 데이터 세트에 과적합 또는 과소적합되면 새 데이터 세트로 일반화가 잘 되지 않으므로 앙상블 방법을 사용해 이 동작에 대응하여 모델을 새 데이터 세트로 일반화할 수 있습니다. 의사 결정 트리는 높은 분산 또는 높은 편향을 보일 수 있지만, 편향-분산 트레이드오프 내에서 "적절한 균형"을 찾기 위해 앙상블 학습을 활용하는 유일한 모델링 기술이 아니라는 점에 유의해야 합니다.

배깅 및 부스팅 비교

배깅과 부스팅은 앙상블 학습 방법의 두 가지 주요 유형입니다. 이 연구(PDF, 242KB)(ibm.com 외부 링크)에서 강조한 바와 같이 이러한 학습 방법의 주요 차이점은 훈련 방법입니다. 배깅에서는 한 번에 여러 약한 학습자를 훈련시키지만 부스팅은 약한 학습자를 순차적으로 훈련시킵니다. 즉, 일련의 모델이 구성되고, 새로운 모델이 반복될 때마다 이전 모델에서 잘못 분류된 데이터의 가중치가 증가합니다. 이러한 가중치의 재분배는 알고리즘이 성능 향상을 위해 집중해야 하는 매개변수를 식별하는 데 도움이 됩니다. "적응형 부스팅 알고리즘"을 의미하는 AdaBoost는 최초의 부스팅 알고리즘 중 하나로 가장 많이 사용되는 부스팅 알고리즘 중 하나입니다. 다른 유형의 부스팅 알고리즘으로는 XGBoost, GradientBoost 및 BrownBoost 등이 있습니다.

배깅과 부스팅의 또 다른 차이점은 사용 방법입니다. 예를 들어, 일반적으로 배깅 방법은 높은 분산과 낮은 편향을 보이는 약한 학습자에 사용되는 반면 부스팅 방법은 낮은 분산과 높은 편향이 보일 때 활용됩니다. 과적합을 피하기 위해 배깅을 사용할 수 있지만 부스팅 방법은 데이터 세트에 따라 다르지만 이 과적합(ibm.com 외부 링크)에 더 취약할 수 있습니다. 그러나 매개변수 조정을 통해 이 문제를 방지할 수 있습니다.

결과적으로 배깅과 부스팅은 실제로도 서로 다른 분야에 활용되고 있습니다. 배깅은 대출 승인 프로세스 및 통계 유전학에 활용된 반면 부스팅은 이미지 인식 앱 및 검색 엔진에서 더 많이 사용되었습니다.

주요 제품

SPSS Modeler

부스팅의 유형

부스팅 방법은 약한 학습자를 반복적으로 결합하여 보다 정확한 결과를 예측할 수 있는 강력한 학습자를 구성하는 데 중점을 둡니다. 참고로 약한 학습자는 무작위 추측보다 데이터를 약간 더 잘 분류합니다. 이 접근 방식은 예측 문제에 대해 강력한 결과를 제공할 수 있으며, 이미지 검색(PDF, 1.9MB)(ibm.com 외부 링크)과 같은 작업을 위한 신경망 및 서포트 벡터 머신을 능가할 수도 있습니다.

부스팅 알고리즘은 순차 프로세스 도중 약한 학습자를 생성하고 집계하는 방법이 다를 수 있습니다. 많이 사용되는 세 가지 부스팅 방법 유형은 다음과 같습니다.

적응형 부스팅 또는 AdaBoost: AdaBoost 알고리즘은 Yoav Freund와 Robert Schapire가 만들었습니다. 이 방법은 반복적으로 작동하여 잘못 분류된 데이터 포인트를 식별하고 가중치를 조정하여 훈련 오차를 최소화합니다. 모델은 가장 강력한 예측변수를 생성할 때까지 순차적으로 최적화를 계속합니다.
그래디언트 부스팅: Jerome H. Friedman은 Leo Breiman의 작업물을 바탕으로 그래디언트 부스팅을 개발했습니다. 이 방법은 앙상블에 예측변수를 순차적으로 추가하며 각각 이전 모델의 오차를 수정하는 방식으로 작동합니다. 그러나 AdaBoost와 같이 데이터 포인트의 가중치를 변경하는 대신 그래디언트 부스팅은 이전 예측변수의 잔차에 대해 훈련합니다. 그래디언트 부스팅의 이름은 경사하강법 알고리즘과 부스팅 방법을 결합한 데서 유래되었습니다.
익스트림 그래디언트 부스팅 또는 XGBoost: XGBoost는 컴퓨팅 속도와 규모를 고려해 설계된 그래디언트 부스팅을 구현한 것입니다. XGBoost는 CPU의 여러 코어를 활용하여 훈련 중에 학습이 동시에 일어나도록 합니다.

부스팅의 이점 및 문제점

부스팅 방법이 분류 또는 회귀 문제에 사용할 때 제시되는 여러 주요 장점과 문제점이 있습니다.

부스팅의 주요 이점은 다음과 같습니다.

구현 용이성: 여러 하이퍼 매개변수 조정 옵션과 함께 부스팅을 사용하여 적합성을 향상시킬 수 있습니다. 데이터 전처리가 필요하지 않으며, 부스팅 알고리즘에는 누락된 데이터를 처리하는 루틴이 내장되어 있습니다. Python에서 앙상블 방법의 scikit-learn 라이브러리(sklearn.ensemble이라고도 함)를 사용하면 AdaBoost, XGBoost 등 인기 있는 부스팅 방법을 손쉽게 구현할 수 있습니다.
편향 감소: 부스팅 알고리즘은 여러 약한 학습자를 순차적으로 결합하여 관찰 결과를 반복적으로 개선합니다. 이 접근 방식은 얕은 의사 결정 트리 및 로지스틱 회귀 모델에서 흔히 볼 수 있는 높은 편향을 줄이는 데 도움이 될 수 있습니다.
컴퓨팅 효율성: 부스팅 알고리즘은 훈련 중에 예측력을 높이는 기능만 선택하므로 차원을 줄이고 컴퓨팅 효율성을 높이는 데 도움이 될 수 있습니다.

부스팅의 주요 문제점은 다음과 같습니다.

과적합: 부스팅이 과적합을 줄이는 데 도움이 될지, 또는 악화시키는지에 관한 연구(ibm.com 외부 링크)에는 약간의 논쟁이 있습니다. 여기에서는 문제가 발생하는 경우 예측을 새 데이터 세트로 일반화할 수 없기 때문에 이를 문제점에 포함시킵니다.
강도 높은 계산: 부스팅의 순차적 훈련은 확장하기 어렵습니다. XGBoost가 다른 유형의 부스팅 방법에서 볼 수 있는 확장성 문제의 해결을 시도하지만 각 추정기가 이전 모델을 기반으로 구축되기 때문에 부스팅 모델은 컴퓨팅 부하가 높을 수 있습니다. 부스팅 알고리즘은 많은 수의 매개변수가 모델의 동작에 영향을 줄 수 있으므로 배깅에 비해 훈련 속도가 느릴 수 있습니다.

부스팅의 응용 분야

부스팅 알고리즘은 다음을 포함한 광범위한 산업 분야의 인공 지능 프로젝트에 적합합니다.

의료: 부스팅은 심혈관계 질환의 위험 인자 및 암환자의 생존율 예측과 같은 의료 데이터 예측의 오차를 줄이는 데 사용됩니다. 예를 들어 연구(ibm.com 외부 링크)에 따르면 앙상블 방법이 심혈관계 질환의 예방적 치료로 혜택을 얻을 수 있는 환자를 식별하는 정확도를 크게 향상시키면서 다른 사람의 불필요한 치료를 방지합니다. 마찬가지로, 또 다른 연구(IBM 외부 링크)에 따르면 여러 유전체학 플랫폼에 부스팅을 적용하면 암환자의 생존 시간 예측을 개선할 수 있습니다.

IT: 그래디언트 부스팅 회귀 트리는 검색 엔진의 페이지 랭킹에 사용되고, Viola-Jones 부스팅 알고리즘은 이미지 검색에 사용됩니다. Cornell(ibm.com 외부 링크)이 언급했듯, 부스팅 분류기를 사용하면 예측 진행 방향이 명확할 때 컴퓨팅을 더 빠르게 중지할 수 있습니다. 다시 말하면 검색 엔진은 순위가 낮은 페이지의 평가를 중지할 수 있고, 이미지 스캐너는 원하는 오브젝트가 실제로 포함된 이미지만 고려합니다.
금융: 부스팅은 딥러닝 모델과 함께 사용되어 사기 탐지, 가격 분석 등의 중요한 작업을 자동화합니다. 예를 들어, 신용카드 사기 탐지 및 금융 상품 가격 분석(ibm.com 외부 링크)에 부스팅 방법을 적용하면 막대한 데이터 세트 분석의 정확성을 향상시켜 재정적 손실을 최소화합니다.