IBM Support

ステップワイズ

How To


Summary

線型回帰やロジスティック回帰は、全ての独立変数を効いているかどうかに関わらず「対等」に扱います。このため無関係な独立変数は除外をしなければ妨害を受けたモデルになってしまいます。ルールに従って独立変数の選別をする機能がステップワイズとなります。

線型回帰、ロジスティック回帰(二項・多項)、判別分析、COX回帰比例ハザード(生存分析版のロジスティック回帰)で使用できます。

Steps

1. ステップワイズの概要

線型回帰やロジスティック回帰は、全ての独立変数を効いているかどうかに関わらず「対等」に扱います。このため無関係な独立変数は除外をしなければ妨害を受けたモデルになってしまいますルールに従って独立変数の選別をする機能がステップワイズとなります。

線型回帰、ロジスティック回帰(二項・多項)、判別分析、COX回帰比例ハザード(生存分析版のロジスティック回帰)で使用できます。

2. 対応アプリケーション

SPSS Statistics Base(線型回帰・判別分析)

SPSS Statistics Regression(ロジスティック回帰)

SPSS Statistics Advanced Statistics(COX回帰比例ハザード)

SPSS Modeler

それぞれの手法が入っていればステップワイズも実行可能で、追加オプションの必要はありません。

3. ステップワイズの種類

強制投入法:ステップワイズ法を実施せず、全独立変数で回帰分析を行います。
変数増加法独立変数が回帰式にない状態から、スコアの高い順に独立変数を追加して、回帰式を再計算をします。
変数減少法全独立変数を回帰式に追加した状態から、スコアの低い順に独立変数を除外して、回帰式を再計算をします。
強制除去法:全独立変数で回帰分析を行なった後で全独立変数を除外して回帰分析を行います。

線型回帰ではF検定有意確率([係数]テーブルの有意確率/ステップワイズ を選択した場合)または偏相関(変数増加法・変数減少法を選択した場合)で判定をします。ロジスティック回帰とCOX回帰では判定するスコアに応じてステップワイズ法をさらに3種類に細分化されます

Wald統計量ロジスティック回帰分析やCOX回帰で算出されるWaldのスコアを基準として変数が選択されます。変数増加法の場合はWaldの値が大きい独立変数から順番に追加され、変数減少法の場合はWaldの値が小さい独立変数から順番に除外されます。

尤度比:最尤推定量によるパラメータによる独立変数の組み合わせの異なるモデルを算出して、両モデルの尤度関数の率の対数を2倍したものを算出し、その中からスコアの良い独立変数の組み合わせのモデルを採用いたします。尤度比(LR)は[方程式中の変数]の有意確率の値と近似し、変数増加法の場合は尤度比が大きい独立変数から順番に追加され、変数減少法の場合は尤度比が小さい独立変数から順番に除外されます。

条件付き:上記の「尤度比」と同じ考え方で独立変数が選択されるのですが、尤度比の場合の「最尤推定量によるパラメータ」ではなく「条件推定のパラメータ」を算出して、この値で独立変数が選択されます。従属変数が二項(「はい・いいえ」「あり・なし」などの2値変数)の場合は有益です。

ロジスティック回帰とCOX回帰では「強制投入法」「変数増加法:条件付」「変数増加法:尤度比」「変数増加法:Wald」「変数減少法:条件付」「変数減少法:尤度比」「変数減少法:Wald」と使い分けられます。Waldで計算をしたほうが処理が早く、尤度比で計算をしたほうが正確である傾向があります。ステップワイズ の基準値は各分析のオプションで変更できます。

関係性の薄い変数を回帰式から除外することで、ノイズとなる要素がなくなってモデルとしての精度が上がることが期待されます

4. 線型回帰分析

サンプルデータセット:

Windows「C:\Program Files\IBM\SPSS\Statistics\26\Samples\Japanese\car_sales.sav」

MacOS「/Applications/IBM/SPSS/Statistics/26/Samples/Japanese/car_sales.sav」

image-20200220175939-1

分析内容:従属変数「実勢価格」は、「馬力」「燃費」「全長」などの各独立変数にどれくらい影響を受けているか。

操作手順:

1.SPSS Statisticsを起動し、「car_sales.sav」を開きます。
2.メニューの[分析]→[回帰]→[線型]をクリックし、[線型回帰]ダイアログの[従属変数]欄に変数「対数変換: 価格」を投入し、 [独立変数]欄に変数「4年後の中古販売価格」「車両タイプ」「定価」「エンジンサイズ」「馬力」「ホイールベース」「全幅」「全長」「車両総重量」「燃料積載量」「燃料効率」 を投入して、[方法]で[ステップワイズ]を選択して[OK]ボタンで実行します。

[方法]では有効性の低い変数をステップワイズ法で除外しております。線型モデルでは当てはまりの良い変数でも悪い変数でも全ての独立変数が対等に扱われるので、例えば「たまたま運動の出来る子に絵の上手な子がいたために、実際は関係がない美術の成績の良さが体育の成績の良さに関与する」という結論になることもありえます。このため当てはまりの悪い変数はあらかじめ除外して分析をする必要があってステップワイズ法が用意されております。

image-20200324094614-1

回帰式の数式ではなく数式に入る係数などを表形式で出力します。帰無仮説は「この独立変数は回帰式に含めない」であり有意確率が0.050未満であれば帰無仮説が棄却されて「この独立変数は回帰式に含めて良い」となります。変数増加法のステップワイズなので、独立変数なしのモデル0からひとつずつ独立変数を追加していきます 。回帰式に入るパラメータ係数は、実際の変数に対応する値が「非標準化係数 B」、比率を揃えた標準化されたパラメータ係数が「標準化係数 ベータ」となります。このため今回の分析では「4年後の中古販売価格 B=-0.059」「ホイールベース B=0.051」が回帰式に採用されて、「y = -0.059x + 0.051x」という回帰式になります。

Document Location

Worldwide

[{"Business Unit":{"code":"BU059","label":"IBM Software w\/o TPS"},"Product":{"code":"SSLVMB","label":"IBM SPSS Statistics"},"Component":"","Platform":[{"code":"PF025","label":"Platform Independent"}],"Version":"All Versions","Edition":"","Line of Business":{"code":"LOB10","label":"Data and AI"}}]

Document Information

Modified date:
13 April 2020

UID

ibm13073767