Validation croisée

Ce panneau est activé uniquement si l'objectif consiste à prévoir une cible. Les options de ce panneau contrôlent l'utilisation ou non de la validation croisée lors du calcul des voisins les plus proches.

La validation croisée divise l'échantillon en plusieurs sous échantillons, ou niveaux. Les modèles du voisin le plus proche sont générés en excluant à tour de rôle les données de chaque sous-échantillon. Le premier modèle est basé sur toutes les observations à l'exception de celles du premier sous-échantillon, le deuxième modèle est basé sur toutes les observations à l'exception de celles du deuxième sous-échantillon, etc. L'erreur est estimée pour chaque modèle en appliquant le modèle au sous-échantillon exclu lors de la génération du modèle. Le "meilleur" nombre des voisins les plus proches est celui qui produit l'erreur la plus faible sur les sous-échantillons.

Niveaux de validation croisée. Le Niveau V de validation croisée est utilisé pour déterminer le "meilleur" nombre de voisins. Il n'est pas disponible en association avec la sélection de caractéristiques pour des raisons de performance.

  • Affecter aléatoirement des observations aux niveaux. Spécifier le nombre de niveaux à utiliser pour la validation croisée. Cette procédure affecte aléatoirement des observations aux sous-échantillons, numérotés de 1 à V, le nombre de sous-échantillons.
  • Définir une valeur de départ aléatoire. Lors de l'estimation de l'exactitude d'un modèle basé sur un pourcentage aléatoire, cette option vous permet de dupliquer les mêmes résultats dans une autre session. Indiquez la valeur de départ utilisée par le générateur de nombres aléatoires pour vous assurer que les mêmes enregistrements sont affectés à chaque exécution du noeud. Entrez la valeur de départ souhaitée. Si cette option n'est pas sélectionnée, un échantillon différent est généré à chaque exécution du noeud.
  • Utiliser un champ pour affecter des observations. Indiquez un champ numérique qui affecte chaque observation du de l'ensemble de données actif à un niveau. Le champ doit être numérique et prendre des valeurs de 1 à V. Si des valeurs de cet intervalle sont manquantes, et sont situées sur des découpages si des modèles de découpage sont appliqués, cela provoquera une erreur.