Bootstrap

Le bootstrap est une méthode consistant à dériver des estimations robustes des erreurs standard et des intervalles de confiance pour des estimations telles que la moyenne, la médiane, le calcul de la proportion, le rapport des cotes, le coefficient de corrélation ou de régression. Elle peut aussi être utilisée pour construire des tests d'hypothèse. Le bootstrap est le plus souvent utile comme une alternative aux estimations paramétriques lorsque les hypothèses liées à ces méthodes ne sont pas fiables (comme dans le cas de modèles de régression avec des résidus hétéroscédastiques ajustés à des petits échantillons), ou lorsque l'inférence paramétrique est impossible ou requiert des formules très complexes pour le calcul des erreurs standard (comme dans le cas du calcul d'intervalles de confiance pour la médiane, les quartiles, et autres percentiles).

Exemples

Une société en télécommunication perd environ 27% de ses clients par attrition chaque mois. Afin de réduire ce taux d'attrition, la direction souhaite savoir si ce taux varie selon les groupes de consommateurs. A l'aide de la méthode du bootstrap, vous pouvez déterminer si un même taux d'attrition décrit de manière appropriée le comportement des quatre types principaux de clients.

Lors d'une consultation des dossiers des employés, la direction souhaite vérifier leur expérience professionnelle. L'expérience professionnelle est asymétrique, ce qui rend la moyenne moins fiable comme moyen d'estimation de l'expérience antérieure des employés que la médiane. Cependant, les intervalles de confiance paramétriques ne sont pas disponibles pour la médiane dans le produit.

La direction est également intéressée à déterminer les facteurs associés aux augmentations des salaires des employés, en ajustant un modèle linéaire aux différences entre le salaire actuel et le salaire d'embauche. Lorsque la méthode des bootstraps est appliquée à un modèle linéaire, il est possible d'utiliser des méthodes de ré-échantillonnage (échantillonnage résiduel et wild bootstrap) pour obtenir des résultats plus précis.

De nombreuses procédures prennent en charge l'échantillonnage par bootstrap et le regroupement en pool des résultats d'analyse d'échantillons de bootstrap. Les contrôles permettant la spécification des analyses par bootstrap sont intégrés directement comme une sous-boîte de dialogue dans les procédures prenant en charge le bootstrap. Les paramètres de la boîte de dialogue du bootstrap sont conservés d'une procédure à l'autre, ainsi si vous exécutez une analyse des effectifs à l'aide du bootstrap dans les boîtes de dialogue, elle sera activée par défaut pour les autres procédure la prenant en charge.

Obtention d'une analyse de bootstrap

  1. Dans les menus, choisissez une procédure qui prend en charge le bootstrap et cliquez sur Bootstrap.
  2. Sélectionnez Effectuer un amorçage.

Vous pouvez éventuellement contrôler les options suivantes :

Nombre d'échantillons. Pour le percentile et les intervalles BCa produits, il est recommandé d'utiliser au moins 1000 échantillons de bootstrap. Spécifiez un nombre entier positif.

Définir la valeur de départ pour Mersenne Twister : Définir une valeur de départ vous permet de reproduire les analyses. L'utilisation de ce contrôle revient à définir le Mersenne Twister comme le générateur actif et à spécifier un point de départ fixe dans la boîte de dialogue Générateurs de nombres aléatoires. La différence notoire est que la définition de la valeur de départ dans cette boîte de dialogue conserve l'état actuel du générateur de nombres aléatoires et restaure cet état une fois l'analyse terminée. Pour plus d'informations, voir Générateurs de nombres aléatoires .

Intervalles de confiance. Indiquez un niveau de confiance supérieur à 50 et inférieur à 100. Les intervalles de percentile utilisent seulement des valeurs de bootstrap ordonnées correspondant aux percentiles d'intervalle de confiance. Par exemple, un intervalle de confiance de percentile de 95 % utilise les 2,5e et 97,5e percentiles des valeurs de bootstrap comme bornes inférieure et supérieure de l'intervalle (en interpolant des valeurs de bootstrap si nécessaire). Les intervalles de biais corrigé et accéléré (BCa) sont des intervalles ajustés plus précis, toutefois ils requièrent plus de temps de calcul.

Echantillonnage. La méthode Simple est le ré-échantillonnage des observations avec remplacement du jeu de données d'origine. La méthode Stratifiée est le ré-échantillonnage des observations avec remplacement du jeu de données d'origine, au sein des strates définies par la classification croisée des variables de strates. L'échantillonnage de bootstrap stratifié est utile lorsque les unités au sein des strates sont relativement homogènes, alors qu'elles sont différentes d'une strate à l'autre.

Remarque: les graphiques ne sont pas produits dans la sortie lorsque le bootstrap est activé.

L'exécution de la commande bootstrap reproduit la syntaxe de la commande BOOTSTRAP .