Modelos lineales generalizados

El modelo lineal generalizado amplía el modelo lineal general, de manera que la variable dependiente está relacionada linealmente con los factores y las covariables mediante una determinada función de enlace. Además, el modelo permite que la variable dependiente tenga una distribución no normal. El modelo lineal generalizado cubre los modelos estadísticos más utilizados, como la regresión lineal para las respuestas distribuidas normalmente, modelos logísticos para datos binarios, modelos loglineales para datos de recuento, modelos log-log complementario para datos de supervivencia censurados por intervalos, además de muchos otros modelos estadísticos a través de la propia formulación general del modelo.

Ejemplos. Una compañía de transporte puede utilizar modelos lineales generalizados para ajustar una regresión de Poisson a las frecuencias de daños de varios tipos de barcos construidos en varios períodos de tiempo. El modelo resultante puede ayudar a determinar cuales son los tipos de barcos más propensos a sufrir daños.

Una compañía de seguros de automóviles puede utilizar modelos lineales generalizados para ajustar una regresión gamma a las reclamaciones por daños de los automóviles. El modelo resultante puede ayudar a determinar los factores que más contribuyen al tamaño de la reclamación.

Los investigadores médicos pueden utilizar modelos lineales generalizados para ajustar una regresión log-log complementario a los datos de supervivencia censurados por intervalos para pronosticar el tiempo que tardará en reaparecer una enfermedad.

Modelos lineales generalizados: Consideraciones sobre los datos

Datos. La respuesta puede ser de escala, de recuentos, binaria o eventos en ensayos. Se supone que los factores son categóricos. Las covariables, la ponderación de escala y el desplazamiento se suponen que son de escala.

Supuestos. Se supone que los casos son observaciones independientes.

Para obtener un modelo lineal generalizado

Esta característica requiere Tablas personalizadas y Estadísticas avanzadas.

En los menús seleccione:

Analizar > Modelos lineales generalizados > Generalizado Modelos lineales ...

Especifique una distribución y una función de enlace (consulte a continuación detalles sobre las opciones disponibles).
En la pestaña Respuesta , seleccione una variable dependiente.
En la pestaña Predictores , seleccione factores y covariables para utilizarlos en la predicción de la variable dependiente.
En la pestaña Modelo , especifique los efectos del modelo utilizando los factores y covariables seleccionados.

La pestaña Tipo de modelo permite especificar la distribución y la función de enlace del modelo, además de proporcionar accesos directos a varios modelos habituales que aparecen clasificados por tipo de respuesta.

Tipos de modelos

Respuesta de escala. Se encuentran disponibles las siguientes opciones:

Lineal. Especifica la distribución normal y la función de enlace identidad.
Gamma con enlace de logaritmo. Especifica la distribución gamma y la función de enlace de logaritmo.

Respuesta ordinal. Se encuentran disponibles las siguientes opciones:

Logística ordinal. Especifica la distribución multinomial (ordinal) y la función de enlace logit acumulado.
Probit ordinal. Especifica la distribución multinomial (ordinal) y la función de enlace probit acumulado.

con mayor frecuencia Se encuentran disponibles las siguientes opciones:

Loglineal de Poisson. Especifica la distribución de Poisson y la función de enlace de logaritmo.
Binomial negativa con enlace de logaritmo. Especifica la distribución binomial negativa (con el valor 1 para el parámetro auxiliar) y la función de enlace de logaritmo. Para que el procedimiento calcule el valor del parámetro auxiliar, especifique un modelo personalizado con distribución binomial negativa y seleccione Estimar valor en el grupo de parámetros.

Respuesta binaria o Datos de eventos/ensayos. Se encuentran disponibles las siguientes opciones:

Logística binaria. Especifica la distribución binomial y la función de enlace logit.
Probit binario. Especifica la distribución binomial y la función de enlace probit.
Supervivencia censurada en intervalo. Especifica la distribución binomial y la función de enlace log-log complementario.

Mezcla. Se encuentran disponibles las siguientes opciones:

Tweedie con enlace de logaritmo. Especifica la distribución de Tweedie y la función de enlace de logaritmo.
Tweedie con enlace de identidad. Especifica la distribución de Tweedie y la función de enlace identidad.

Personalizado. Especifique su propia combinación de distribución y función de enlace.

Distribución

Esta selección especifica la distribución de la variable dependiente. La posibilidad de especificar una distribución que no sea la normal y una función de enlace que no sea la identidad es la principal mejora que aporta el modelo lineal generalizado respecto al modelo lineal general. Hay muchas combinaciones posibles de distribución y función de enlace, varias de las cuales pueden ser adecuadas para un determinado conjunto de datos, por lo que su elección puede estar guiada por consideraciones teóricas a priori y por las combinaciones que parezcan funcionar mejor.

Binomial. Esta distribución es adecuada únicamente para las variables que representan una respuesta binaria o un número de eventos.
Gamma. Esta distribución es adecuada para las variables con valores de escala positivos que se desvían hacia valores positivos más grandes. Si un valor de datos es menor o igual que 0 o es un valor perdido, el correspondiente caso no se utilizará en el análisis.
De Gauss inversa. Esta distribución es adecuada para las variables con valores de escala positivos que se desvían hacia valores positivos más grandes. Si un valor de datos es menor o igual que 0 o es un valor perdido, el correspondiente caso no se utilizará en el análisis.
Binomial negativa. Esta distribución considera el número de intentos necesarios para lograr k éxitos y es adecuada para variables que tengan valores enteros que no sean negativos. Si un valor de datos no es entero, es menor que 0 o es un valor perdido, el correspondiente caso no se utilizará en el análisis. El valor del parámetro auxiliar de la distribución binomial negativa puede ser cualquier número mayor o igual que 0; puede establecerlo en un valor fijo o permitir que se calcule mediante el procedimiento. Cuando el parámetro auxiliar se establece en 0, utilizar esta distribución equivale a utilizar la distribución de Poisson.
Normal. Es adecuada para variables de escala cuyos valores adoptan una distribución simétrica con forma de campana en torno a un valor central (la media). La variable dependiente debe ser numérica.
Poisson. Esta distribución considera el número de ocurrencias de un evento de interés en un período fijo de tiempo y es apropiada para variables que tengan valores enteros que no sean negativos. Si un valor de datos no es entero, es menor que 0 o es un valor perdido, el correspondiente caso no se utilizará en el análisis.
Tweedie. Esta distribución es adecuada para variables que puedan representarse mediante mezclas de Poisson de distribuciones gamma; la distribución es una "mezcla" en el sentido de que combina las propiedades de distribuciones continuas (toma valores reales no negativos) y discretas (masa de probabilidad positiva en un único valor, 0). La variable dependiente debe ser numérica y los valores de los datos deben ser iguales o mayores que cero. Si un valor de datos es menor que 0 o es un valor perdido, el correspondiente caso no se utilizará en el análisis. El valor fijo del parámetro de la distribución de Tweedie puede ser cualquier número mayor que uno y menor que dos.
Multinomial. Esta distribución es adecuada para variables que representan una respuesta ordinal. La variable dependiente puede ser numérica o de cadena, y debe tener como mínimo dos valores válidos distintos de los datos.

Funciones de enlace

La función de enlace es una transformación de la variable dependiente que permite la estimación del modelo. Se encuentran disponibles las siguientes funciones:

Identidad. f(x) =x. No se transforma la variable dependiente. Este enlace se puede utilizar con cualquier distribución.
Log-log complementario. f(x) =log (−log (1−x)). Es apropiada únicamente para la distribución binomial.
Cauchit acumulada. f(x) = tan(π (x – 0.5)), aplicada a la probabilidad acumulada de cada categoría de la respuesta. Es apropiada únicamente para la distribución multinomial.
Log-log complementario acumulado. f(x)=ln(−ln(1−x)), aplicada a la probabilidad acumulada de cada categoría de la respuesta. Es apropiada únicamente para la distribución multinomial.
Logit acumulativo. f(x) = ln (x /(1−x)), aplicado a la probabilidad acumulada de cada categoría de la respuesta. Es apropiada únicamente para la distribución multinomial.
Log-log negativo acumulado. f(x)=−ln(−ln(x)), aplicada a la probabilidad acumulada de cada categoría de la respuesta. Es apropiada únicamente para la distribución multinomial.
Probit acumulativo. f(x) = φ^{− 1}(x), aplicado a la probabilidad acumulada de cada categoría de la respuesta, donde φ^{− 1} es la función de distribución acumulada normal estándar inversa. Es apropiada únicamente para la distribución multinomial.
Registro. f(x) = log (x). Este enlace se puede utilizar con cualquier distribución.
Complemento log. f(x) =log (1−x). Es apropiada únicamente para la distribución binomial.
Logit. f(x) = log (x /(1−x)). Es apropiada únicamente para la distribución binomial.
Binomial negativa. f(x)=log(x / (x+k ⁻¹)), donde k es el parámetro auxiliar de la distribución binomial negativa. Es apropiada únicamente para la distribución binomial negativa.
Log-log negativo. f(x) = −log (−log (x)). Es apropiada únicamente para la distribución binomial.
Poder de probabilidad. f(x) = [(x/(1−x))^α− 1 ]/α, si α ≠ 0. f(x) = log (x), si α=0. α es la especificación de número necesaria y debe ser un número real. Es apropiada únicamente para la distribución binomial.
Probit. f(x)=Φ⁻¹(x), donde Φ⁻¹ es la función de distribución acumulada normal estándar inversa. Es apropiada únicamente para la distribución binomial.
verde. f(x)=x ^α, if α ≠ 0. f(x)=log(x), si α=0. α es la especificación del número requerido y debe ser un número real. Este enlace se puede utilizar con cualquier distribución.

Este procedimiento pega la sintaxis del comando GENLIN .