로지스틱 회귀분석이란 무엇인가요?

로지스틱 회귀란 무엇인가요?

로지스틱 회귀는 주어진 독립 변수 데이터 집합을 기반으로 투표함 또는 투표하지 않음과 같은 이벤트가 발생할 확률을 추정합니다.

이러한 유형의 통계 모델(로짓 모델이라고도 함)은 분류 및 예측 분석에 자주 사용됩니다. 결과는 확률이므로 종속 변수는 0과 1 사이에 있습니다. 로지스틱 회귀 분석에서는 승산, 즉 성공 확률을 실패 확률로 나눈 값에 로짓 변환을 적용합니다. 이것은 일반적으로 로그 오즈(log odds) 또는 오즈의 자연 로그라고도 하며 이 로지스틱 함수는 다음 공식으로 표시됩니다.

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k

이 로지스틱 회귀 방정식에서 logit(pi)은 종속 변수 또는 반응 변수이고 x는 독립 변수입니다. 이 모델의 베타 매개변수 또는 계수는 일반적으로 최대가능도 추정법(MLE)을 통해 추정됩니다. 이 방법은 여러 번의 반복을 통해 다양한 베타 값을 테스트하여 로그 오즈에 가장 잘 맞도록 최적화합니다. 이러한 모든 반복은 로그 가능도 함수를 생성하며, 로지스틱 회귀는 이 함수를 최대화하여 최상의 모델 매개변수 추정치를 찾으려고 합니다. 최적 계수(또는 둘 이상의 독립 변수가 있는 경우 계수)가 발견되면 각 관측치에 대한 조건부 확률을 계산, 기록 및 합산하여 예측 확률을 산출할 수 있습니다. 이진 분류의 경우 0.5보다 작은 확률은 0을 예측하고 0보다 큰 확률은 1을 예측합니다. 모델을 계산한 후에는 모델이 종속 변수를 얼마나 잘 예측하는지 평가하는 것이 최상의 관행이며, 이를 적합도라고 합니다. Hosmer–Lemeshow 검정은 모델 적합도를 평가하는 데 널리 사용되는 방법입니다.

AI 거버넌스가 엔터프라이즈 AI 확장을 위해 비즈니스에 필수적인 이유

AI 채택을 가로막는 장벽, 특히 AI 거버넌스 및 위험 관리 솔루션의 부족에 대해 알아보세요.

관련 내용

Presto에서 eBook 등록하기

로지스틱 회귀 해석하기

로그 오즈는 로지스틱 회귀 데이터 분석 내에서 이해하기 어려울 수 있습니다. 결과적으로, 베타 추정치를 지수화하여 결과를 승산비(OR)로 변환하여 결과 해석을 용이하게 하는 것이 일반적입니다. OR은 특정 이벤트가 주어졌을 때 결과가 발생할 확률과 해당 이벤트가 없을 때 결과가 발생할 확률을 나타냅니다. OR이 1보다 크면 이벤트가 특정 결과를 생성할 확률이 더 높습니다. 반대로, OR이 1보다 작으면 해당 결과가 발생할 확률이 낮아집니다. 위의 방정식을 기반으로 승산비의 해석은 다음과 같이 나타낼 수 있습니다. 성공 확률은 x의 c-단위가 증가할 때마다 exp(cB_1)배만큼 변합니다. 예를 들어, 타이타닉호에서의 생존 확률을 추정하기 위해 한 사람이 남성이었고 남성의 승산비는 0.0810이었다고 가정해 보겠습니다. 우리는 다른 모든 변수를 일정하게 유지하면서 여성과 비교할 때 남성의 생존 확률이 여성에 비해 0.0810배 감소한 것으로 승산비를 해석합니다.

백서 읽기

선형 회귀 대 로지스틱 회귀

선형 회귀와 로지스틱 회귀는 데이터 과학 분야에서 가장 널리 사용되는 모델 중 하나이며, Python 및 R과 같은 오픈 소스 도구를 사용하면 빠르고 쉽게 계산할 수 있습니다.

선형 회귀 모델은 연속 종속 변수와 하나 이상의 독립 변수 간의 관계를 식별하는 데 사용됩니다. 독립 변수와 종속 변수가 하나만 있는 경우를 단순 선형 회귀라고 하고, 독립 변수의 수가 많아질 때는 다중 선형 회귀라고 합니다. 선형 회귀 모델은 각 유형의 선형 회귀에 대해 일반적으로 최소 제곱법을 사용하여 계산되는 일련의 데이터 포인트를 통해 가장 적합한 선을 그리려고 합니다.

선형 회귀와 마찬가지로 로지스틱 회귀는 종속 변수와 하나 이상의 독립 변수 간의 관계를 추정하는 데에도 사용되지만 범주형 변수와 연속 변수에 대한 예측을 수행하는 데 사용됩니다. 범주형 변수는 참 또는 거짓, 예 또는 아니요, 1 또는 0 등이 될 수 있습니다. 측정 단위는 확률을 생성한다는 점에서 선형 회귀와 다르지만 로짓 함수는 S-곡선을 직선으로 변환합니다.

두 모델 모두 회귀 분석에서 미래 결과를 예측하는 데 사용되지만 선형 회귀는 일반적으로 이해하기가 더 쉽습니다. 로지스틱 회귀에는 모든 반응 범주의 값을 나타내기 위한 적합한 표본이 필요한 반면 선형 회귀의 경우 그만큼 표본 크기가 크지 않아도 됩니다. 더 큰 대표적 표본이 없으면 모델의 통계적 검정력이 충분하지 않아 유의미한 효과를 탐지하지 못할 수 있습니다.

로지스틱 회귀 유형

로지스틱 회귀 모델에는 세 가지 유형이 있으며, 범주형 반응을 기반으로 정의됩니다.

이진 로지스틱 회귀: 이 접근법에서 반응 또는 종속 변수는 본질적으로 이분형입니다. 즉, 두 가지의 가능한 결과만 있습니다(예: 0 또는 1). 널리 사용되는 몇 가지 예로는 메일이 스팸인지 아닌지 또는 종양이 악성인지 아닌지를 예측하는 것이 있습니다. 로지스틱 회귀 내에서 가장 일반적으로 사용되는 접근 방식이며, 더 일반적으로 이진 분류를 위한 가장 일반적인 분류자 중 하나입니다.
다항 로지스틱 회귀: 이러한 유형의 로지스틱 회귀 모델에서 종속 변수는 세 가지 이상의 가능한 결과를 가집니다. 그러나 이러한 값에는 지정된 순서가 없습니다. 예를 들어, 영화 스튜디오는 영화를 보다 효과적으로 마케팅하기 위해 영화 관객이 볼 가능성이 있는 영화 장르를 예측하려고 합니다. 다항 로지스틱 회귀 모델은 스튜디오에서 개인의 연령, 성별 및 사귀는 상대가 있는지 여부가 선호하는 영화 유형에 미칠 수 있는 영향의 강도를 결정하는 데 도움이 될 수 있습니다. 그런 다음 스튜디오는 특정 영화의 광고 캠페인을 해당 영화를 보러 갈 가능성이 높은 사람들을 대상으로 하게 할 수 있습니다.
순서형 로지스틱 회귀: 이 유형의 로지스틱 회귀 모델은 응답 변수에 세 가지 이상의 가능한 결과가 있을 때 활용되지만, 이 경우 이러한 값은 정의된 순서를 갖습니다. 순서형 응답의 예로는 A부터 F까지의 등급 척도 또는 1부터 5까지의 등급 척도가 있습니다.

데이터 과학자의 생각 알아보기

로지스틱 회귀 및 머신 러닝

머신 러닝 내에서 로지스틱 회귀는 감독형 머신 러닝 모델 계열에 속합니다. 이는 또한 판별 모델로 간주되는데, 이는 클래스(또는 범주)를 구별하려고 시도한다는 것을 의미합니다. 나이브 베이즈와 같은 생성형 알고리즘과 달리, 이 모델은 이름에서 알 수 있듯이 예측하려는 클래스의 정보(예: 고양이 사진)를 생성할 수 없습니다.

앞서 로지스틱 회귀가 로그 가능도 함수를 최대화하여 모델의 베타 계수를 결정하는 방법에 대해 설명했습니다. 이는 머신 러닝의 맥락에서 약간 달라집니다. 머신 러닝 내에서 음의 로그 가능도는 손실 함수로 사용되며 경사하강법 프로세스를 사용하여 전역 최대값을 찾습니다. 이는 위에서 논의한 것과 동일한 추정치에 도달하는 또 다른 방법일 뿐입니다.

로지스틱 회귀 분석은 특히 모델 내에 예측 변수 수가 많은 경우 과적합이 발생하기 쉽습니다. 정규화는 일반적으로 모델이 고차원으로 인해 어려움을 겪을 때 매개변수에 큰 계수로 불이익을 주는 데 사용됩니다.

Scikit-learn(ibm.com 외부 링크)은 로지스틱 회귀 머신 러닝 모델에 대해 자세히 알아볼 수 있는 가치 있는 문서를 제공합니다.

로지스틱 회귀의 사용 사례

로지스틱 회귀는 일반적으로 예측 및 분류 문제에 사용됩니다. 이러한 사용 사례 중 일부는 다음과 같습니다.

사기 탐지: 로지스틱 회귀 모델은 팀이 사기를 예측할 수 있게 하는 데이터 이상 징후를 식별하는 데 도움이 될 수 있습니다. 특정 행동이나 특성은 사기 행위와 더 높은 연관성을 가질 수 있으며, 이는 은행 및 기타 금융 기관이 고객을 보호하는 데 특히 도움이 됩니다. SaaS 기반 회사도 비즈니스 성과에 대한 데이터 분석을 수행할 때 데이터 세트에서 가짜 사용자 계정을 제거하기 위해 이러한 관행을 채택하기 시작했습니다.
질병 예측: 의학에서 이 분석 접근 방식은 주어진 인구 집단에 대한 질병 또는 질병의 가능성을 예측하는 데 사용할 수 있습니다. 의료 기관은 특정 질병에 대한 더 높은 성향을 보이는 개인을 위한 예방 치료를 준비할 수 있습니다.
이탈 예측: 특정 행동은 조직의 다양한 기능에서 이탈을 나타낼 수 있습니다. 예를 들어, 인사팀과 관리팀은 회사 내에 조직을 떠날 위험이 있는 고성과자가 있는지 알고 싶어할 수 있습니다. 이러한 유형의 인사이트는 회사 문화나 보상과 같은 회사 내의 문제 영역을 이해하기 위한 대화를 촉발할 수 있습니다. 또는 영업 조직은 고객 중 누가 다른 곳으로 비즈니스 거래를 옮길 위험이 있는지 알고 싶어할 수도 있습니다. 이를 통해 팀은 수익 손실을 방지하기 위해 유지 전략을 설정해야 합니다.

로지스틱 회귀 성공 사례

신용 위험 평가

이진 로지스틱 회귀 분석은 은행 직원이 신용 위험을 평가하는 데 도움이 될 수 있습니다. 무작위 표본을 사용하여 로지스틱 회귀 모델을 만들고 고객을 양호 또는 불량 위험으로 분류하는 방법을 알아봅니다.

은행 업계의 수익 증대

First Tennessee Bank는 IBM SPSS 소프트웨어와 함께 예측 분석 및 물류를 사용하여 수익성을 높이고 교차 판매 캠페인에서 최대 600%의 증가율을 달성했습니다. First Tennessee는 분석 솔루션 내에서 예측 분석 및 물류 분석 기술을 사용하여 모든 데이터에 대한 인사이트를 높이고 있습니다.