Configuración de Clúster y estratificación

El cuadro de diálogo Clúster y estratificación permite seleccionar campos de ponderación, estratificación y clúster cuando extrae una muestra compleja.

Clústeres. Especifica un campo categórico empleado para agrupar registros. Los registros se muestrean en base a su pertenencia al clúster, incluyendo unos clústeres y otros no. Pero si se incluye cualquier registro de un clúster determinado, se incluirán todos. Por ejemplo, al analizar las asociaciones de producto en los carros de la compra, podría agrupar elementos por ID de transacciones para asegurarse de que se conservan todos los elementos de las transacciones seleccionadas. En lugar de muestrear registros, lo cual destruiría la información sobre los elementos que se venden conjuntamente, puede muestrear transacciones para asegurarse de que se conservan todos los registros de las transacciones seleccionadas.

Estratificar por. Especifica un campo categórico utilizado para estratificar los registros de manera que las muestras se seleccionan de forma independiente dentro de subgrupos no superpuestos de población o estratos. Si selecciona una muestra del 50 % estratificada por género, por ejemplo, se tomarán dos muestras del 50 %, una para hombres y otra para mujeres. Por ejemplo, los estratos pueden ser grupos socioeconómicos, categorías laborales, grupos de edades o grupos étnicos, permitiendo garantizar los tamaños de muestra adecuados para los subgrupos de interés. Si hay el triple de mujeres que de hombres en el conjunto de datos original, esta relación se mantendrá realizando muestreos de forma separada para cada grupo. También se pueden especificar varios campos de estratificación (por ejemplo, mediante el muestreado de líneas de producto dentro de regiones o viceversa).

Nota: si estratifica por un campo que tiene valores perdidos (los valores perdidos del sistema o nulos, cadenas vacías, espacios blancos y valores perdidos definidos por el usuario o en blanco), no podrá especificar tamaños de muestra personalizados por estratos. Si desea utilizar los tamaños de muestras personalizados al estratificar por campo con valores en blanco o perdidos, tendrá que especificarlos antes.

Utilizar ponderación de entrada. Especifica un campo empleado para ponderar registros antes del muestreo. Por ejemplo, si el campo de ponderación tiene valores comprendidos entre 1 y 5, los registros ponderados con 5 tienen una probabilidad de cinco de ser seleccionados. Los valores de este campo se sobrescribirán con las ponderaciones de salida final generadas por el nodo (consulte el siguiente párrafo).

Nueva ponderación de resultados. Especifica el nombre del campo donde se incluyen las ponderaciones finales si no se especifica ningún campo de ponderación de entrada. (Si se especifica un campo de ponderación de entrada, sus valores se sustituyen por las ponderaciones finales como se indica arriba y no se crea ningún campo de ponderación de resultados independiente.) Los valores de ponderación de resultados indican el número de registros representados por cada registro muestreado en los datos originales. La suma de los valores ponderados ofrece una estimación del tamaño de la muestra. Por ejemplo, si se toma una muestra aleatoria del 10 %, la ponderación de resultados será 10 para todos los registros, indicando que cada registro muestreado representa aproximadamente 10 registros en los datos originales. En una muestra estratificada o ponderada, los valores de ponderación de resultados pueden variar en base a la proporción de la muestra para cada estrato.

Comentarios

El muestreado clúster es útil si no puede obtener una lista completa de la población que desea muestrear, pero puede obtener listas completas para determinados grupos o clústeres. También se utiliza cuando una muestra aleatoria produce una lista de sujetos de comprobación con los que sería poco práctico ponerse en contacto. Por ejemplo, sería más fácil visitar a todos los granjeros de una provincia que a una selección de granjeros de distintas provincias dentro del mismo país.
Puede especificar tanto el clúster como los campos de estratificación para muestrear los clústeres de forma independiente para cada estrato. Por ejemplo, puede muestrear valores de la propiedad estratificados por provincia y el clúster por ciudad dentro de cada provincia. Así, garantizará que una muestra independiente de ciudades se extrae de cada provincia. Algunas ciudades se incluirán y otras no, pero cada ciudad que se incluya, se considerarán todas las propiedades de la ciudad.
Para seleccionar una muestra aleatoria de unidades dentro de cada clúster, puede encadenar dos nodos Muestrear. Por ejemplo, primero podría muestrear municipios estratificados por provincia como se ha descrito anteriormente. A continuación, se añadiría un segundo nodo Muestrear y seleccionaría ciudad como campo de estratificación, lo que le permitiría muestrear una proporción de registros de cada municipio.
En los casos en los que se requiere una combinación de campos para identificar clústeres de forma exclusiva, se puede generar un nuevo campo mediante un nodo Derivar. Por ejemplo, si varias tiendas utilizan el mismo sistema de numeración para las transacciones, podría derivar un nuevo campo que concatene la tienda y los ID de transacción.