ロジスティック回帰は、与えられた独立変数のデータ・セットに基づいて、投票/未投票などのイベントの発生確率を推定します。
このタイプの統計モデル(ロジット・モデルとも呼ばれる)は、分類や予測分析によく使用されます。結果は確率であるため、従属変数は0と1の間に制限されます。ロジスティック回帰では、ロジット変換がオッズ、つまり、成功の確率を失敗の確率で割ったものに適用されます。これは、一般に対数オッズ、またはオッズの自然対数とも呼ばれ、そのロジスティック関数は次の式で表されます。
Logit(pi) = 1/(1+ exp(-pi))
ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k
このロジスティック回帰式では、logit(pi)が従属変数または応答変数、xが独立変数です。このモデルのベータ・パラメーター、つまり係数は、通常、最尤推定(MLE)を介して推定されます。この手法では、繰り返し実行することによりさまざまなベータ値をテストし、対数オッズを最適化します。これらの反復はすべて対数尤度関数を生成し、ロジスティック回帰ではこの関数を最大化して最適なパラメーター推定値を見つけようとします。 最適な係数(複数の独立変数がある場合は複数の係数)が見つかると、各観測値の条件付き確率が計算され、ログに記録され、合計され、予測確率が得られます。2項分類の場合、0.5未満の確率は0を予測し、0より大きい確率は1を予測します。モデルが計算されたら、モデルが従属変数をどの程度正確に予測するかを評価することをお勧めします。これは適合度と呼ばれます。Hosmer-Lemeshow検定は、モデルの適合性を評価するための一般的な方法です。
特にAIガバナンスやリスク管理ソリューションの欠如など、AI導入の障壁について学びましょう。
Prestoに関する電子ブックに登録する
ロジスティック回帰データ分析では、対数オッズを理解するのが難しい場合があります。結果として、ベータ推定値をべき乗することは、結果をオッズ比(OR)に変換するために一般的であり、結果の解釈を容易にします。ORは、特定のイベントがない場合に発生する結果のオッズと比較して、特定のイベントが発生した場合に結果が発生するオッズを表します。ORが1より大きい場合、イベントで特定の結果が発生する確率が高くなります。逆に、ORが1未満の場合、イベントでその結果が発生する確率が低くなります。上記の式に基づいて、オッズ比の解釈は次のように表すことができます。成功のオッズは、xがc単位増加するごとにexp(cB_1)倍変化します。例を挙げると、男性のオッズ比が.0810であると仮定して、男性のタイタニック号での生存のオッズを推定するとします。ここで、オッズ比は、他のすべての変数を一定に保った場合、男性の生存のオッズが女性と比較して.0810分の1に減少したと解釈できます。
線形回帰とロジスティック回帰はどちらもデータ・サイエンスで最も人気のあるモデルの1つであり、PythonやRなどのオープンソースのツールを使用すると、それらの計算を迅速かつ簡単に行うことができます。
線形回帰モデルは、連続型の従属変数と1つ以上の独立変数の間の関係を識別するために使用されます。独立変数と従属変数が1つのみの場合は、単純線形回帰と呼ばれ、独立変数の数が増えると、重回帰と呼ばれます。線形回帰のタイプごとに、データ・ポイントのセットを介して最適な線をプロットしようとします。これは通常、最小二乗法を使用して計算されます。
線形回帰と同様に、ロジスティック回帰も従属変数と1つ以上の独立変数の間の関係を推定するために使用されます。ただし、線形回帰とは異なり、連続変数ではなくカテゴリー変数について予測するために使用します。カテゴリー変数とは、trueまたはfalse、yesまたは no、1または0などです。確率を生成するため測定単位も線形回帰とは異なりますが、ロジット関数でS字型の曲線を直線に変換します。
どちらのモデルも回帰分析で将来の結果を予測するために使用されますが、通常は線形回帰の方が結果の解釈は容易です。また、線形回帰がそれほど大きなサイズのサンプルを必要としない一方、ロジスティック回帰はすべての応答カテゴリーを代表する値のサンプルが必要です。大規模な代表サンプルがないと、ロジスティック回帰に十分な検出力がなく、統計的に有意な結果を得られない可能性があります。
ロジスティック回帰には、カテゴリー応答に基づく3種類のモデルがあります。
機械学習の中で、ロジスティック回帰は教師あり機械学習モデル・ファミリーに属します。これは、クラス(またはカテゴリー)を判別することが目的の識別モデルともみなされます。 単純ベイズなどの生成アルゴリズムとは異なり、その名が示すように、画像など、予測しようとしているクラスの情報(例:猫の写真)を生成することはできません。
上記で、ロジスティック回帰がどのように対数尤度関数を最大化してモデルのベータ係数を特定するかを説明しましたが、これは、機械学習のコンテキストでは少し異なります。機械学習では、負の対数尤度が損失関数として使用され、勾配降下法のプロセスを使用して全域的最大値を見つけます。 方法は違いますが、結果は、前述したものと同じ推定値になります。
ロジスティック回帰ではまた、特にモデル内に多数の予測変数がある場合に、過剰適合が生じる傾向があります。そのため、高次元データの解析モデルでは通常、パラメーターの係数が大きい場合はペナルティを課すための正則化を使用します。
Scikit-learn(ibm.com外部へのリンク)は、ロジスティック回帰機械学習モデルについてさらに学ぶための貴重な資料を提供しています。
ロジスティック回帰は、予測および分類問題の分析によく使用され、そのユースケースには次のようなものがあります。
2項ロジスティック回帰分析は、銀行が顧客の信用リスクを評価するのに役立ちます。 どのようにランダムサンプルを使用してロジスティック回帰モデルを作成し、顧客を高リスクと低リスクに分類するかをご覧ください。
First Tennessee Bankは、IBM SPSSソフトウェアで予測分析とロジスティック分析を使用することで収益性を向上させ、クロスセル・キャンペーンで最大600%の増益を達成しました。First Tennesseeでは、1つの分析ソリューションで予測分析とロジスティック分析の手法を使用して、すべてのデータに対するより深い洞察を得ています。