릿지 회귀란 무엇인가요?

작성자

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

릿지 회귀란 무엇인가요?

릿지 회귀는 통계적 정규화 기법입니다. 머신 러닝 모델의 학습 데이터에 대한 과적합을 수정합니다.

L2 정규화라고도 하는 릿지 회귀는 선형 회귀 모델을 위한 여러 유형의 정규화 중 하나입니다. 정규화는 학습 데이터의 과적합으로 인한 오류를 줄이기 위한 통계적 방법입니다. 특히 릿지 회귀는 회귀 분석에서 다중 상관성을 수정합니다. 이 기능은 매개변수가 많은 머신 러닝 모델을 개발할 때 유용하며, 특히 해당 매개변수의 가중치가 높은 경우에 유용합니다. 이 문서에서는 선형 회귀 모델의 정규화에 초점을 맞추고 있지만, 로지스틱 회귀에도 릿지 회귀를 적용할 수 있다는 점에 참고하시기 바랍니다.

문제: 다중 상관성

표준 다중 변수 선형 회귀 방정식은 다음과 같습니다.

여기서 Y는 예측값(종속 변수), X는 예측 변수(독립 변수), B는 해당 독립 변수에 연결된 회귀 계수, X₀는 독립 변수가 0일 때 종속 변수의 값(또한 y절편이라고 함)입니다. 계수가 종속 변수와 주어진 독립 변수 간의 관계를 어떻게 표시하는지 확인하세요.

다중 상관성은 두 개 이상의 예측 변수가 거의 선형에 가까운 관계를 갖는 경우를 나타냅니다. Montgomery et al.은 한 가지 적절한 예를 제시합니다. 장거리 배송에는 정기적으로 많은 수의 품목이 포함되는 반면, 단거리 배송에는 항상 적은 수의 재고가 포함되는 공급망 배송 데이터 세트를 분석한다고 가정해 보겠습니다. 이 경우 그림 1과 같이 배송 거리와 품목의 수량 사이에는 선형 상관관계가 있습니다. 따라서 단일 예측 모델에서 이를 독립 변수로 사용할 때 문제가 발생합니다.

이는 다중 상관성의 한 예일 뿐이며, 비교적 간단하게 해결할 수 있습니다. 더 다양한 데이터(예:많은 수의 품목이 포함된 단거리 배송 데이터)를 수집하기만 하면 됩니다. 그러나 더 많은 데이터를 수집하는 것이 항상 실행 가능한 해결책이 되는 것은 아닙니다. 연구 대상 데이터에 다중 상관성이 내재되어 있는 경우가 바로 그렇습니다. 다중 상관성을 수정하기 위한 다른 옵션으로는 표본 크기를 늘리거나, 독립 변수의 수를 줄이거나, 단순히 다른 모델을 배포하는 것이 있습니다. 그러나 이러한 수정이 항상 다중 상관성을 제거하는 데 성공하는 것은 아니며, 릿지 회귀는 다중 상관성을 해결하기 위해 모델을 정규화하는 또 다른 방법으로 사용됩니다.¹

릿지 회귀의 작동 방식: 회귀 정규화 알고리즘

예측 모델을 처음 개발할 때는 계수가 학습 데이터에 명시되지 있지 않기 때문에 계수를 계산해야 하는 경우가 많습니다. 계수를 추정하기 위해 표준 일반 최소 제곱(OLS) 행렬 계수 추정기를 사용합니다.

이 공식의 연산을 이해하려면 행렬 표기법을 잘 알아야 합니다. 이 공식은 각 독립 변수에 대한 계수를 계산하여 총합적으로 가장 작은 잔차 제곱합(오차 제곱합이라고도 함)을 도출함으로써 주어진 데이터 세트에 가장 잘 맞는 선을 찾는 것을 목표로 합니다.²

잔차 제곱합(RSS)은 선형 회귀 모델이 학습 데이터와 얼마나 잘 일치하는지 측정합니다. 이는 다음과 같은 공식으로 표현됩니다.

이 공식은 학습 데이터의 실측값에 대한 모델 예측 정확도를 측정합니다. RSS = 0이면 모델이 종속 변수를 완벽하게 예측합니다. 그러나 0잠은 특히 학습 데이터 세트가 작은 경우 학습 데이터에 대한 과적합을 의미할 수 있으므로 항상 바람직한 것은 아닙니다. 다중 상관성이 그 원인 중 하나일 수 있습니다.

계수 추정치가 높은 것은 과적합의 징후일 수 있습니다.³ 두 개 이상의 변수가 높은 선형 상관관계를 공유하는 경우 OLS는 잘못된 높은 값의 계수를 반환할 수 있습니다. 하나 이상의 계수가 너무 높으면 입력 데이터의 사소한 변경에도 모델의 아웃풋이 영향을 받습니다. 즉, 모델이 특정 학습 세트에 과적합되어 새로운 테스트 세트에서 정확하게 일반화하지 못한다는 뜻입니다. 이러한 모델은 불안정한 것으로 간주됩니다.⁴

릿지 회귀는 잠재적으로 상관관계를 가진 예측 변수를 설명하는 계수를 계산하여 OLS를 수정합니다. 특히 릿지 회귀는 RSS 함수에 정규화 항(흔히 페널티 항이라고 함)를 도입하여 높은 값의 계수를 보정합니다. 이 페널티 항은 모델 계수의 제곱의 합입니다.⁵ 이는 다음과 같은 공식으로 표현됩니다.

L2 페널티 항이 RSS 함수의 끝에 삽입되면 새로운 공식인 릿지 회귀 추정기가 생성됩니다. 이것이 모델에 미치는 영향은 하이퍼 매개변수 람다(λ)에 의해 제어됩니다.

계수는 주어진 예측 변수(독립 변수)가 예측값(종속 변수)에 미치는 영향을 표시한다는 것을 기억하세요. L2 페널티 항은 RSS 공식에 추가되면 모든 계수 값을 줄여서 특히 높은 계수를 상쇄합니다. 통계학에서는 이를 계수 축소라고 합니다. 따라서 위의 릿지 추정기는 주어진 모델의 RSS를 줄이는 새로운 회귀 계수를 계산합니다. 이렇게 하면 모든 예측 변수의 효과를 최소화하고 학습 데이터에 대한 과적합을 줄일 수 있습니다.⁶

릿지 회귀는 모든 계수를 같은 값만큼 축소하지 않습니다. 오히려 계수는 초기 크기에 비례하여 축소됩니다. λ가 증가하면 높은 값의 계수가 낮은 값의 계수보다 더 큰 비율로 축소됩니다.⁷ 따라서 높은 값의 계수는 낮은 값의 계수보다 더 큰 페널티를 받습니다.

릿지 회귀와 라소 회귀 비교

L2 패널티는 계수를 0에 가깝게 축소하지만, 절대 0(Absolute zero)으로 축소하지는 않습니다. 모델 특징 가중치는 무시할 수 있을 정도로 작아질 수 있지만 릿지 회귀에서는 결코 0과 같지 않습니다. 계수를 0으로 줄이면 모델에서 페어링된 예측 변수를 효과적으로 제거할 수 있습니다. 이를 특징 선택이라고 하며, 다중 상관성을 수정하는 또 다른 방법입니다.⁸릿지 회귀는 회귀 계수를 0으로 낮추지 않기 때문에 특징 선택을 수행하지 않습니다.⁹ 이 점이 릿지 회귀의 단점으로 꼽힙니다. 또한, 릿지 회귀의 또 다른 단점은 심각한 다중 상관성 상황에서 예측 효과를 분리할 수 없다는 점입니다.¹⁰

L1 정규화라고도 하는 라소 회귀는 선형 회귀의 여러 정규화 방법 중 하나입니다.— L1 정규화는 계수를 0으로 줄여 모델에서 독립 변수를 제거하는 방식으로 작동합니다. 따라서 라소 회귀와 리지 회귀는 서로 다른 수단을 사용하지만, 모델 복잡성을 줄인다는 공통점을 갖습니다. 라소 회귀는 아웃풋에 영향을 주는 독립 변수의 수를 줄입니다. 릿지 회귀는 각 독립 변수가 아웃풋에 미치는 가중치를 줄입니다.

기타 회귀 정규화 기법

엘라스틱 넷은 정규화의 또 다른 형태입니다. 릿지 회귀는 오차 제곱의 합에서 정규화 매개변수를 얻고 라소는 오차 절대값의 합에서 자체 정규화 매개변수를 얻는 데 반해, 엘라스틱 넷은 두 정규화 매개변수를 RSS 비용 함수에 통합합니다.¹¹

주성분 회귀(PCR)도 정규화 절차로 사용할 수 있습니다. PCR은 다중 상관성을 해결할 수 있지만 릿지 및 라소 회귀에서와 같이 RSS 함수에 페널티를 적용하여 해결하지는 않습니다. 오히려 PCR은 상관관계가 있는 예측 변수의 선형 조합을 생성하여 새로운 최소 제곱 모델을 생성합니다.¹²

업계 뉴스레터

전문가가 전하는 최신 AI 트렌드

가장 중요하고 흥미로운 AI 뉴스에 대한 선별된 인사이트를 확인하세요. 주간 Think 뉴스레터를 구독하세요. IBM 개인정보 보호정책을 참조하세요.

머신 러닝에서의 릿지 회귀

모델 복잡성

머신 러닝에서 릿지 회귀는 모델 복잡성으로 인해 발생하는 과적합을 줄이는 데 도움이 됩니다. 모델 복잡성은 다음과 같은 원인으로 인해 발생할 수 있습니다.

모델이 너무 많은 기능을 보유 특징은 모델의 예측 변수이며 머신 러닝에서 매개변수라고도 합니다. 온라인 튜토리얼에서는 학습 데이터 세트의 인스턴스 수보다 특징의 수를 적게 유지하도록 권장하는 경우가 많습니다. 하지만 이것이 항상 가능하지는 않습니다.
특징에 너무 큰 가중치 부여 특징 가중치는 주어진 예측 변수가 모델 아웃풋에 미치는 영향을 나타냅니다. 특징 가중치가 높다는 것은 계수가 높다는 것과 같은 의미입니다.

단순한 모델이 복잡한 모델보다 항상 더 나은 성능을 보여주는 것은 아닙니다. 그렇지만 모델의 복잡도가 높으면 학습 세트 외부의 새로운 데이터에 대한 모델의 일반화 능력이 저하될 수 있습니다.

릿지 회귀는 특징 선택을 수행하지 않기 때문에 특징을 제거하여 모델 복잡성을 줄일 수 없습니다. 그러나 하나 이상의 특징이 모델의 출력에 너무 큰 영향을 미치는 경우 릿지 회귀는 L2 페널티 항에 따라 모델 전반에 걸쳐 높은 특징 가중치( 계수)를 축소할 수 있습니다. 이렇게 하면 모델의 복잡성이 줄어들고, 모델의 예측이 하나 이상의 특징에 비정상적으로 의존하지 않게 됩니다.

편향-분산 트레이드오프

머신 러닝 용어에서 릿지 회귀는 모델의 분산을 줄이기 위해 모델에 편향을 추가하는 것을 의미합니다. 편향-분산 트레이드오프는 머신 러닝에서 잘 알려진 문제입니다. 하지만 편향-분산 트레이드오프를 이해하려면 먼저 머신 러닝 연구에서 '편향'과 '분산'이 각각 무엇을 의미하는지 알아야 합니다.

간단히 설명하자면, 편향은 예측값과 실제값 사이의 평균 차이를 측정하는 것이고, 분산은 주어진 모델의 다양한 실현에 대한 예측 간의 차이를 측정하는 것입니다. 편향이 증가하면 학습 데이터 세트에 대한 모델의 예측 정확도가 떨어집니다. 분산이 증가하면 다른 데이터 세트에 대한 모델의 예측 정확도가 떨어집니다. 따라서 편향과 분산은 각각 학습 세트와 테스트 세트에 대한 모델 정확도를 측정합니다. 개발자는 당연히 모델 편향과 분산을 줄이기를 바랍니다. 그러나 이 둘을 함께 줄이는 것이 항상 가능한 것은 아니므로 릿지 회귀와 같은 정규화 기법이 필요합니다.

앞서 언급했듯이 릿지 회귀 정규화는 분산 감소를 위해 추가적인 편향을 유발합니다. 즉, 릿지 회귀를 통해 정규화된 모델은 학습 데이터에 대한 예측 정확도는 낮지만(편향이 높음), 테스트 데이터에 대한 예측 정확도는 높습니다(분산이 낮음). 이것이 편향-분산 트레이드오프입니다. 사용자는 릿지 회귀를 통해 주어진 모델의 일반화(분산 감소)를 높이기 위해 허용 가능한 학습 정확도 손실(편향 증가)을 결정합니다.¹³이러한 방식으로 편향을 높이면 모델의 전반적인 성능을 개선하는 데 도움이 될 수 있습니다.

L2 페널티의 강도, 즉모델의 편향-분산 트레이드오프는 릿지 추정기 손실 함수 방정식의 λ값에 따라 결정됩니다. λ가 0이면 일반 최소 제곱 함수가 남습니다. 이렇게 하면 정규화 없이 표준 선형 회귀 모델이 생성됩니다. 반대로 λ값이 높을수록 정규화가 더 많이 이루어집니다. λ가 증가하면 모델 편향은 증가하지만 분산은 감소합니다. 따라서 λ가 0이면 모델은 학습 데이터에 과적합하지만, λ가 너무 높으면 모델은 모든 데이터에 과소적합합니다.¹⁴

적절한 λ값을 결정하는 데는 평균 제곱 오차(MSE)가 도움이 될 수 있습니다. MSE는 RSS와 밀접한 관련이 있으며 예측값과 실제값 사이의 차이를 평균적으로 측정하는 수단입니다. 모델의 MSE가 낮을수록 예측이 더 정확합니다. 그러나 λ가 증가하면 MSE도 증가합니다. 그럼에도 불구하고 릿지 회귀를 통해 얻은 MSE가 OLS를 통해 얻은 것보다 작기 때문에 0보다 큰 λ값이 항상 존재한다는 주장이 있습니다.¹⁵ 적절한 λ값을 추론하는 한 가지 방법은 그림 2에서와 같이 MSE를 증가시키지 않는 λ의 최고값을 찾는 것입니다. 추가적인 교차 검증 기법을 사용하면 모델 조정에 가장 적합한 λ값을 선택할 수 있습니다.¹⁶

사용 사례 예시

릿지 회귀 모델은 두 개 이상의 상호 연관된 특징을 가진 데이터 세트를 다룰 때 사용하는 것이 가장 좋습니다. 또한 많은 분야에서는 예측 변수의 수가 많고 학습 데이터 세트가 적은 모델을 처리하기 위해 릿지 회귀를 사용합니다.¹⁷ 이러한 상황은 다양한 데이터를 다룰 때 매우 흔하게 나타날 수 있습니다.

생물 통계학

컴퓨터 생명 공학 및 유전학 연구는 예측 변수의 수가 데이터 세트 샘플 크기를 크게 능가하는 모델을 다루는 경우가 많은데, 있는 특히 유전적 발현을 조사할 때 그렇습니다. 릿지 회귀는 이러한 수많은 특징의 총 가중치를 줄이고 모델의 예측 범위를 압축하여 이러한 모델 복잡성을 해결하는 방법을 제공합니다.

부동산

주택의 최종 판매 가격은 수많은 예측 변수에 의해 결정되는데, 침실과 욕실 수 등 여러 예측 변수가 상호 연관되어 있습니다. 상관관계가 높은 특징은 높은 회귀 계수와 학습 데이터에 대한 과적합을 가져옵니다. 릿지 회귀는 모델의 최종 예측값에 대해 총 특징 가중치를 줄임으로써 이러한 형태의 모델 복잡성을 수정합니다.

이는 데이터 과학이라는 광범위한 분야에서 찾을 수 있는 두 가지 예에 불과합니다. 그러나 이 두 예에서 알 수 있듯이, 데이터 샘플보다 모델 특징이 더 많거나 모델에 상관관계가 높은 특징이 두 개 이상 있는 경우 regression를 가장 효과적으로 사용할 수 있습니다.

AI 아카데미

고객 서비스에 AI 활용

생성형 AI를 활용하여 더 원활한 경험으로 고객을 만족시키고 셀프 서비스, 인간 상담원, 컨택 센터 운영이라는 세 가지 핵심 영역에서 조직의 생산성을 높이는 방법을 알아보세요.

에피소드로 이동

최근 연구

최근 연구에서는 특징 선택을 수행하기 위해 수정된 릿지 회귀의 변형을 탐구합니다.¹⁸이 수정된 형태의 릿지 회귀는 각 계수에 대해 서로 다른 정규화 매개변수를 활용합니다. 이러한 방식으로 특징 가중치에 개별적으로 페널티를 줄 수 있으므로 잠재적으로 릿지 회귀를 통해 특징 선택을 구현할 수 있습니다.¹⁹

생성형 AI + ML의 힘 활용하기

생성형 AI와 머신 러닝을 비즈니스에 자신 있게 통합하는 방법 알아보기

릿지 회귀란 무엇인가요?

작성자

릿지 회귀란 무엇인가요?

문제: 다중 상관성

릿지 회귀의 작동 방식: 회귀 정규화 알고리즘

릿지 회귀와 라소 회귀 비교

기타 회귀 정규화 기법

전문가가 전하는 최신 AI 트렌드

감사합니다! 구독이 완료되었습니다.

머신 러닝에서의 릿지 회귀

모델 복잡성

편향-분산 트레이드오프

사용 사례 예시

고객 서비스에 AI 활용

최근 연구

리소스