Analyse ROC

L'analyse ROC (Receiver Operating Characteristic) permet d'évaluer l'exactitude des prévisions d'un modèle en traçant la sensibilité par rapport au taux de faux positifs (1-spécificité) d'un test de classification (étant donné que le seuil varie sur toute une plage de résultats de tests de diagnostic). Toute l'aire sous une courbe (AUC, Area Under Curve) ROC donnée permet de formuler une statistique importante : la probabilité que la prévision se trouve dans l'ordre approprié lorsqu'une variable de test est observée (pour un sujet sélectionné au hasard dans le groupe d'observations et un autre sujet sélectionné au hasard dans le groupe de contrôle). L'analyse ROC prend en charge l'inférence concernant une aire AUC unique et des courbes PR (précision-rappel). Elle propose des options pour comparer deux courbes ROC générées à partir de groupes indépendants ou de sujets appariés.

Les courbes PR comparent la précision du tracé au rappel, ont tendance à être plus informatives lorsque les échantillons de données observées sont très asymétriques et offrent une alternative aux courbes ROC pour les données dont la distribution des classes est très asymétrique.

Exemple
Une banque envisage de classer correctement ses clients en catégories, à savoir ceux qui assumeront ou non le remboursement de leur prêt. Des modèles particuliers sont développés afin de supporter la prise de décision. L'analyse ROC peut être utilisée pour déterminer et évaluer l'exactitude des prévisions d'un modèle.
Statistiques
Aire sous la courbe (AUC), groupe négatif, valeurs manquantes, classification positive, valeur limite, force de conviction, intervalle de confiance asymptotique bilatéral, distribution, erreur standard, plan à groupes indépendants ; plan à échantillons appariés, hypothèse non paramétrique, hypothèse de distribution exponentielle bi-négative, centre, césure, courbe PR, interpolation progressive, signification asymptotique (bilatérale), sensibilité et taux de faux positifs (1-spécificité), précision et rappel (PR).
Méthodes
La comparaison porte sur les aires situées sous deux courbes ROC et générées à partir de groupes indépendants ou de sujets appariés. La comparaison de deux courbes ROC peut fournir de plus amples informations sur l'exactitude de deux approches de diagnostic comparatives.

Remarques sur les données d'analyse ROC

Données
Les courbes PR comparent la précision du tracé au rappel et ont tendance à être plus informatives lorsque les échantillons de données observées sont très asymétriques. Une simple interpolation linéaire peut générer une erreur d'estimation trop optimiste d'une courbe PR.
Hypothèses
La prévision se trouve dans l'ordre approprié lorsqu'une variable de test est observée (pour un sujet sélectionné au hasard dans le groupe d'observations et un autre sujet sélectionné au hasard dans le groupe de contrôle). Chaque groupe défini doit contenir au moins une observation valide. Une seule variable de regroupement est utilisée par procédure.

Obtention d'une analyse ROC

Cette fonction requiert Statistics Base Edition.

  1. A partir des menus, sélectionnez :

    Analyse > Classification > Analyse ROC

  2. Cliquez sur Sélectionner les variables sous la section Sélectionner des variables de test, sélectionnez une ou plusieurs variables de probabilité de test, puis cliquez sur OK.
  3. Lorsque le paramètre par défaut Conception de groupe indépendant est sélectionné, cliquez sur Sélectionner une variable dans la section Variable de groupe, sélectionnez une variable unique pour regrouper les observations, puis cliquez sur OK.

    Lorsqu'une variable de regroupement numérique est sélectionnée, vous pouvez cliquer sur le lien Groupe : en regard de la variable de groupe pour demander la conception du groupe indépendant pour la ou les variables de test, et pour spécifier deux valeurs, un centre ou une césure. Pour plus d'informations, voir Analyse ROC : Définir les groupes.

  4. Cliquez sur Sélectionner une variable sous la section Variable d'état, sélectionnez une variable d'état unique et cliquez sur OK.
  5. Cliquez sur le lien Définition de l'état* en regard de la variable d'état pour identifier la valeur positive pour la variable d'état. Cliquez sur OK après avoir spécifié la valeur d'état positive.
  6. Vous pouvez également sélectionner l'option Plan à échantillons appariés pour demander la conception d'échantillons appariés pour la ou les variables de test. Le plan à échantillons appariés compare deux courbes ROC dans un scénario de test à échantillons appariés lorsque plusieurs valeurs de test sont mesurées sur les mêmes sujets associés à une variable d'état.
    Remarque : Lorsque Plan à échantillons appariés est sélectionné, les options Variable de groupe et Hypothèse de distribution (dans la boîte de dialogue Classification) sont désactivées.
  7. Si vous le souhaitez, développez le menu Paramètres supplémentaires et effectuez les opérations suivantes :
    • Cliquez sur Classification pour définir la valeur de césure, la direction du test et l'erreur standard de la zone sous la courbe.
    • Cliquez sur Statistiques pour sélectionner les statistiques à inclure dans la procédure.
    • Cliquez sur Tracés pour définir le traçage des courbes ROC et PR (précision-rappel).
    • Cliquez sur Options pour spécifier les paramètres des valeurs manquantes.
  8. Cliquez sur Exécuter l'analyse.

Cette procédure reproduit la syntaxe de commande ANALYSE ROC.