Mesure d'impureté de Gini

L'impureté de Gini est une mesure utilisée pour générer des arborescences de classification. Elle fournit plus d'informations sur la distribution des données par noeud que la précision de classification utilisée pour indiquer la précision de l'arborescence.

L'impureté d'un noeud d'arborescence de classification est calculée à l'aide du nombre de chaque catégorie cible dans tous les enregistrements correspondant au noeud indiqué. Le total d'impureté de Gini correspond à la somme des carrés des proportions des nombres dans toutes les catégories cibles par noeud, soustraite de 1, le résultat étant multiplié par le nombre d'enregistrements.

Par exemple, lors du fractionnement d'un noeud d'arborescence, l'algorithme recherche le champ dont l'amélioration de l'impureté totale est la plus élevée ; elle correspond à l'impureté totale du noeud parent de laquelle est soustraite l'impureté totale de tous les noeuds enfants potentiels.