Tests d'indépendance (khi-deux)

Cet exemple utilise le fichier de données survey_sample.sav. Pour plus d'informations, voir Fichiers d'exemple.

Le test d'indépendance khi-deux sert à déterminer l'existence d'une relation entre deux variables catégorielles. Par exemple, vous pouvez déterminer si la variable Situation d'activité est liée à la variable Situation familiale.

  1. A partir du menu, sélectionnez :

    Analyse > Tableaux > Tableaux personnalisés...

  2. Dans le générateur de tableaux, faites glisser la variable Situation d'activité de la liste des variables vers la zone Lignes du panneau de canevas.
  3. Faites glisser la variable Situation familiale de la liste des variables vers la zone Colonnes.
  4. Sélectionnez Lignes comme position pour les statistiques récapitulatives.
  5. Sélectionnez Situation d'activité, puis cliquez sur Statistiques récapitulatives dans le groupe Définir.
  6. Dans la liste Statistiques, sélectionnez la statistique N % colonne, puis ajoutez-la à la liste Afficher.
  7. Cliquez sur Appliquer à la sélection.
  8. Dans la boîte de dialogue Tableaux personnalisés, cliquez sur l'onglet Statistiques de test.
  9. Sélectionnez Tests d'indépendance (Khi-deux).
  10. Cliquez sur OK pour créer le tableau et obtenir le test du khi-deux.
Figure 1. Variables Situation d'activité et Situation familiale
Variable Situation d'activité et Situation familiale

Ce tableau est un tableau croisé des variables Situation d'activité et Situation familiale, dans lequel les effectifs et les proportions de colonne constituent les statistiques récapitulatives. Les proportions de colonne sont calculées de sorte que leur somme soit égale à 100 % pour chaque colonne. Si ces deux variables ne sont pas liées, dans chaque ligne les proportions doivent être identiques d'une colonne à l'autre. Des différences semblent exister entre les proportions ; vous pouvez effectuer une vérification à l'aide du test du khi-deux.

Figure 2. Test du khi-deux de Pearson
Test du khi-deux de Pearson

Le test d'indépendance part de l'hypothèse que les variables Situation d'activité et Situation familiale ne sont pas liées, c'est-à-dire que les proportions de colonne sont identiques d'une colonne à l'autre et que toute différence observée est due à une variation aléatoire. La statistique du khi-deux mesure la différence globale entre les effectifs de cellules observés et les effectifs attendus si les proportions de colonne étaient identiques d'une colonne à l'autre. Plus la valeur de la statistique du khi-deux est élevée, plus la différence entre les effectifs de cellules observés et théoriques est importante, et plus il apparaît que les proportions de colonne ne sont pas égales, que l'hypothèse d'indépendance est incorrecte et, par conséquent, que les variables Situation d'activité et Situation familiale sont liées.

La statistique du khi-deux donne la valeur 729,242. Pour déterminer si ceci suffit pour rejeter l'hypothèse d'indépendance, la valeur de signification de la statistique est calculée. La valeur de signification est la probabilité qu'une variable aléatoire issue d'une distribution khi-deux avec 28 degrés de liberté soit supérieure à 729,242. Dans la mesure où cette valeur est inférieure au niveau alpha spécifié dans l'onglet Statistiques de test, vous pouvez rejeter l'hypothèse d'indépendance au niveau 0,05. Par conséquent, les variables Situation d'activité et Situation familiale sont en fait liées.