La regresión logística estima la probabilidad de que ocurra un evento, como votar o no votar, en función de un conjunto de datos determinado de variables independientes.
Este tipo de modelo estadístico (también conocido como modelo logit) se utiliza a menudo para la clasificación y el análisis predictivo. Dado que el resultado es una probabilidad, la variable dependiente está limitada entre 0 y 1. En la regresión logística, se aplica una transformación logit a las probabilidades, es decir, la probabilidad de éxito dividida por la probabilidad de fracaso. Esto también se conoce comúnmente como probabilidades logarítmicas, o el logaritmo natural de probabilidades, y esta función logística se representa mediante las siguientes fórmulas:
Logit(pi) = 1/(1+ exp(-pi))
ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k
En esta ecuación de regresión logística, logit (pi) es la variable dependiente o de respuesta y x es la variable independiente. El parámetro beta, o coeficiente, en este modelo se estima comúnmente mediante la estimación de máxima verosimilitud (MLE). Este método prueba diferentes valores de beta a través de múltiples iteraciones para optimizar el mejor ajuste de las probabilidades de registro. Todas estas iteraciones producen la función de verosimilitud logarítmica, y la regresión logística busca maximizar esta función para encontrar la mejor estimación de parámetros. Una vez que se encuentra el coeficiente óptimo (o los coeficientes si hay más de una variable independiente), las probabilidades condicionales para cada observación se pueden calcular, registrar y sumar para obtener una probabilidad predicha. Para la clasificación binaria, una probabilidad inferior a 0.5 predecirá 0, mientras que una probabilidad superior a 0 predecirá 1. Después de calcular el modelo, se recomienda evaluar qué tan bien el modelo predice la variable dependiente, lo que se denomina bondad de ajuste. La prueba de Hosmer-Lemeshow es un método popular para evaluar el ajuste del modelo.
Conozca los obstáculos para la adopción de la IA, en particular la falta de soluciones de gobernanza y gestión de riesgos.
Regístrese para obtener el libro electrónico sobre Presto
Puede ser difícil entender las probabilidades logarítmicas dentro de un análisis de datos de regresión logística. Como resultado, es común exponenciar las estimaciones beta para transformar los resultados en un índice de probabilidad (OR), lo que facilita la interpretación de los resultados. El OR representa las probabilidades de que ocurra un resultado dado un evento particular, en comparación con las probabilidades de que el resultado ocurra en ausencia de ese evento. Si el OR es mayor que 1, entonces el evento está asociado con mayores probabilidades de generar un resultado específico. Por el contrario, si el OR es menor que 1, entonces el evento se asocia con menores probabilidades de que ocurra ese resultado. Según la ecuación anterior, la interpretación de una razón de probabilidades se puede denotar de la siguiente manera: las probabilidades de éxito cambian en exp(cB_1) veces por cada aumento de c unidades en x. Para usar un ejemplo, digamos que tuviéramos que estimar las probabilidades de supervivencia en el Titanic dado que la persona era hombre y la razón de probabilidades para los hombres era 0.0810. Interpretaríamos el índice de probabilidad como que las probabilidades de supervivencia de los hombres disminuyeron en un factor de 0.0810, en comparación con las mujeres, manteniendo constantes todas las demás variables.
Tanto la regresión lineal como la logística se encuentran entre los modelos más populares dentro de la ciencia de datos, y las herramientas de código abierto, como Python y R, hacen que el cálculo sea rápido y fácil.
Los modelos de regresión lineal se utilizan para identificar la relación entre una variable dependiente continua y una o más variables independientes. Cuando solo hay una variable independiente y una variable dependiente, se conoce como regresión lineal simple, pero a medida que aumenta el número de variables independientes, se conoce como regresión lineal múltiple. Para cada tipo de regresión lineal, busca trazar una línea de mejor ajuste a través de un conjunto de puntos de datos, que generalmente se calcula utilizando el método de mínimos cuadrados.
Al igual que la regresión lineal, la regresión logística también se utiliza para estimar la relación entre una variable dependiente y una o más variables independientes, pero se utiliza para hacer una predicción sobre una variable categórica frente a una continua. Una variable categórica puede ser verdadera o falsa, sí o no, 1 o 0, etc. La unidad de medida también difiere de la regresión lineal en que produce una probabilidad, pero la función logit transforma la curva S en línea recta.
Si bien ambos modelos se utilizan en el análisis de regresión para hacer predicciones sobre resultados futuros, la regresión lineal suele ser más fácil de entender. La regresión lineal tampoco requiere un tamaño de muestra tan grande como la regresión logística necesita una muestra adecuada para representar valores en todas las categorías de respuesta. Sin una muestra más grande y representativa, es posible que el modelo no tenga suficiente poder estadístico para detectar un efecto significativo.
Hay tres tipos de modelos de regresión logística, que se definen en función de la respuesta categórica.
Dentro del aprendizaje automático, la regresión logística pertenece a la familia de modelos de aprendizaje automático supervisado . También se considera un modelo discriminativo, lo que significa que intenta distinguir entre clases (o categorías). A diferencia de un algoritmo generativo, como bayesiano ingenuo, no puede, ya que el nombre implica, generar información, como una imagen, de la clase que intenta predecir (por ejemplo, una imagen de un gato).
Anteriormente, mencionamos cómo la regresión logística maximiza la función de verosimilitud logarítmica para determinar los coeficientes beta del modelo. Esto cambia ligeramente en el contexto del aprendizaje automático. Dentro del aprendizaje automático, se utilizó el logaritmo de probabilidad negativo como función de pérdida, utilizando el proceso de descenso de gradiente para encontrar el máximo global. Esta es solo otra forma de llegar a las mismas estimaciones discutidas anteriormente.
La regresión logística también puede ser propensa al sobreajuste, especialmente cuando hay una gran cantidad de variables predictoras dentro del modelo. La regularización se utiliza normalmente para penalizar parámetros con coeficientes grandes cuando el modelo adolece de una alta dimensionalidad.
Scikit-learn (enlace externo a ibm.com) proporciona documentación valiosa para aprender más sobre el modelo de aprendizaje automático de regresión logística.
La regresión logística se utiliza habitualmente para problemas de predicción y clasificación. Algunos de estos casos de uso son:
La regresión logística binaria puede ayudar a los banqueros a evaluar el riesgo crediticio. Vea cómo puede usar una muestra aleatoria para crear un modelo de regresión logística y clasificar a los clientes como buenos o malos riesgos.
First Tennessee Bank impulsó la rentabilidad mediante el uso de análisis predictivos y logística con el software IBM SPSS y logró aumentos de hasta el 600 % en campañas de venta cruzada. First Tennessee está utilizando técnicas de análisis predictivo y análisis logístico dentro de una solución de análisis para obtener una mayor comprensión de todos sus datos.
Dé el siguiente paso para comenzar a poner en marcha y escalar la IA generativa y el aprendizaje automático para empresas.
Impulse el retorno de la inversión con una herramienta de ciencia de datos de arrastrar y soltar.
Cree y entrene modelos de IA y aprendizaje automático, prepare y analice datos, todo en un entorno de nube híbrida flexible.
Aprenda a entrenar su propio modelo de regresión binaria personalizado. Saber generar probabilidades, clasificar ejemplos y comprender gradientes descendentes.
Cree un Jupyter Notebook que contenga código Python para definir la regresión logística y luego use TensorFlow para implementarlo.
Los investigadores de IBM muestran que el uso del esquema de cifrado homomórfico CKKS puede entrenar una gran cantidad de modelos de regresión logística simultáneamente.