IBM Support

カイ2乗検定

How To


Summary

カイ2乗検定は、質的変数(カテゴリカルな文字型変数や数値変数)の値の数をカウントして値の出現頻度(度数)を集計し、「そこで集計されている集計表が特異な結果ではなく、データ全体に対しても起こりうることなのか?」を検定する分析です。ノンパラメトリック検定に分類されますので、データが正規分布である必要はありません。

Steps

1. カイ2乗検定の概要

質的変数(カテゴリカルな文字型変数や数値変数)の値の数をカウントして値の出現頻度(度数)を集計し、「そこで集計されている集計表が特異な結果ではなく、データ全体に対しても起こりうることなのか?」を検定する分析です。ノンパラメトリック検定に分類されますので、データが正規分布である必要はありません。

実際の「観測度数」に対して仮説である「期待度数」を設定し、その差を検定することで、この度数分布表だけの結果なのかいつでも起こりうる度数分布なのかを検定します(例:「クラスのお友達の7割がスマホ持っているよ」の子供の報告から、条件を同じくする別の被験者や全被験者で「小学生の7割がスマホを持っている」になるかを証明)。

[ノンパラメトリック検定]ダイアログから実行する適合度検定と、[クロス集計表]ダイアログから実行する独立性検定の2種類があります。アプローチは違いますが、どちらも実際の「観測度数」に対して仮説の「期待度数」を設定してその差を検定しております。

明治時代にケンブリッジ大学のカール・ピアソンが「独立性のカイ2乗分析」を発表しました。パラメトリック検定とノンパラメトリック検定は19世紀後半から20世紀前半にイギリスの学会で「小さな標本数のデータによる調査結果を証明」するために盛んに研究されていました。

2. 対応アプリケーション

SPSS Statistics Base

SPSS Statistics Custom Tables (クロス集計表として独立性検定が可能)

3-1. カイ2乗検定の実行(適合度検定)

サンプルデータセット:

Windows「C:\Program Files\IBM\SPSS\Statistics\26\Samples\Japanese\bankloan.sav」

MacOS「/Applications/IBM/SPSS/Statistics/26/Samples/Japanese/bankloan.sav」

201811081

 

分析内容:カテゴリ変数「学歴構成」はこちらの想定通りの分布かどうか。

操作手順:

1.SPSS Statisticsを起動し、「bankloan.sav」を開きます。
2.メニューの[分析]→[ノンパラメトリック検定]→[1サンプル]をクリックし、[フィールド]タブの[検定フィールド]に変数「教育レベル」を投入します。
3.[設定]タブの[検定のカスタマイズ]をチェックし、[観測された分布を仮説と比較する(カイ2乗検定)]を選択して[オプション]をクリックします。
4.[オプション]にて期待確率を各値ごとに設定(カテゴリ1から5を、4,3,2,1,1と定義)し、戻って実行します。

結論となる出力は[仮説検定の要約]テーブルの[有意確率]です。

帰無仮説は「期待どおりの比率で各値が登場します」なので、有意確率が有意水準以上であれば、仮説がそのまま採用されて「この調査の学歴は想定通りの比率です」となり、有意確率が有意水準未満であれば、仮説が棄却されて対立仮説が採用されて「この調査の学歴は想定通りの比率ではありません(異なっています)」となります

(他の分析例)サイコロをたくさん振って、実際に出た1から6の目は、理論上の確率である「1:1:1:1:1:1」の比率で出ていたかを検定。

3-2. カイ2乗検定の実行(独立性検定)

サンプルデータセット:

Windows「C:\Program Files\IBM\SPSS\Statistics\26\Samples\Japanese\bankloan.sav」

MacOS「/Applications/IBM/SPSS/Statistics/26/Samples/Japanese/bankloan.sav」

201911081

分析内容:カテゴリ変数「学歴」と「返済不履行」に関連性はあるか(独立関係があるかないか)

操作手順:

1.SPSS Statisticsを起動し、「bankloan.sav」を開きます。
2.メニューの[分析]→[記述統計]→[クロス集計表]をクリックし、[クロス集計表]ダイアログの[行]と[列]にそれぞれ変数「教育レベル」「不履行経歴」を投入します。
3. [クロス集計表]ダイアログの[セル]ボタンをクリックし、ダイアログにて[観測]と[期待]にチェックを入れて、戻ります。
4. [クロス集計表]ダイアログの[統計量]ボタンをクリックし、ダイアログにて[カイ2乗]にチェックを入れて、戻って実行します。

結論となる出力は[カイ2乗検定]テーブルの[Pearsonのカイ2乗]にある[漸近有意確率(両側)]です。

クロス集計表には、実際の度数である観測度数と産出された期待度数の両方が表示され、期待度数との差を検定します。

帰無仮説は「教育レベルと不履行経歴に関連性はない(独立している)」なので、有意確率が有意水準以上であれば、仮説がそのまま採用されて「教育レベルと不履行経歴に関連性はない」となり、有意確率が有意水準未満であれば、仮説が棄却されて対立仮説が採用されて「教育レベルと不履行経歴に関連性はある」となります 。


証明される具体的な差はクロス集計表のとおりで、有意水準未満の今回は「学歴が高いほど不履行になる可能性はやや高い」が関連性が高いとして証明されます。

※カイ2乗検定はすべてのクロス集計表のセルが5以上の値を持つ必要があるので、厳密にはこの分析は採用できません。

(他の分析例)「右利きか左利きか」と「スポーツ全国大会出場登録メンバー入りかメンバー外か」に関連性があるか。

Document Location

Worldwide

[{"Business Unit":{"code":"BU059","label":"IBM Software w\/o TPS"},"Product":{"code":"SSLVMB","label":"IBM SPSS Statistics"},"Component":"","Platform":[{"code":"PF025","label":"Platform Independent"}],"Version":"All Versions","Edition":"","Line of Business":{"code":"LOB10","label":"Data and AI"}}]

Document Information

Modified date:
13 April 2020

UID

ibm11104135