¿Qué es la regresión logística?

Autor

Developer Advocate

IBM

¿Qué es la regresión logística?

La regresión logística es un algoritmo de machine learning supervisado en ciencia de datos. Es un tipo de algoritmo de clasificación que predice un resultado discreto o categórico. Por ejemplo, podemos utilizar un modelo de clasificación para determinar si un préstamo se aprueba o no en función de predictores como la cantidad de ahorro, los ingresos y la puntuación crediticia.

En este artículo, nos sumergimos en las matemáticas detrás de la regresión logística - uno de los algoritmos de clasificación más utilizados en el machine learning y la inteligencia artificial (IA). También profundizaremos en los detalles del análisis de regresión, los casos de uso y los diferentes tipos de regresiones logísticas. En la era de la IA generativa, los cimientos que sustentan la regresión logística siguen desempeñando un papel crítico en la orquestación de modelos complejos de redes neuronales. La regresión logística también sigue siendo muy relevante para realizar pruebas estadísticas en el contexto de la investigación en ciencias sociales y del comportamiento, y en el campo de la ciencia de datos en general. Podemos implementar la regresión logística fácilmente utilizando el módulo scikit-learn en Python.

En este artículo explicativo, le presentamos la diferencia entre la regresión lineal y la regresión logística, los fundamentos matemáticos, los diferentes tipos de regresiones logísticas y sus casos de uso asociados.

Regresión logística frente a regresión lineal

La regresión logística, al igual que la regresión lineal, es un tipo de modelo lineal que examina la relación entre las variables predictoras (variables independientes) y una variable output (la variable de respuesta, objetivo o dependiente). La diferencia clave es que la regresión lineal se utiliza cuando el output es un valor continuo, por ejemplo, predecir la puntuación de crédito de alguien. La regresión logística se utiliza cuando el resultado es categórico, como si un préstamo se aprueba o no.

En la regresión logística, el modelo predice la probabilidad de que se produzca un resultado específico. Por ejemplo, dado el perfil financiero de alguien, podríamos predecir la probabilidad de que se apruebe su préstamo. El output del modelo es un valor entre 0 y 1. Basándonos en un umbral (a menudo 0,5) clasificamos el resultado como "aprobado" o "no aprobado". En lugar de trazar una línea recta a través de los datos como lo haríamos en la regresión lineal, la regresión logística ajusta una curva en forma de S para asignar valores de entrada a una probabilidad.

Tanto la regresión lineal como la regresión logística utilizan pruebas estadísticas para evaluar qué variables predictoras impactan significativamente en el output. Técnicas como la prueba t y el análisis de varianza (ANOVA) (o pruebas de razón de verosimilitud para la regresión logística) generan valores p para cada coeficiente, lo que nos ayuda a evaluar si la relación es estadísticamente significativa. Un valor p bajo (normalmente inferior a 0,05) sugiere que la variable contribuye significativamente al modelo. También evaluamos la bondad del ajuste (lo bien que explica el modelo los resultados observados) utilizando diferentes métricas según el tipo de regresión.

A medida que construimos modelos, es importante protegerse contra el sobreajuste, en el que el modelo capta ruido en los datos de entrenamiento y funciona mal con los datos nuevos. Este riesgo aumenta cuando tenemos muchas variables predictoras pero un tamaño de muestra pequeño. Para abordar este problema, podemos aplicar la regularización, una técnica que reduce la influencia de variables menos importantes disminuyendo sus coeficientes. También se debe prestar especial atención a los valores atípicos, ya que pueden distorsionar el modelo y dar lugar a valores p o coeficientes engañosos. En la práctica, mejoramos los modelos a través de múltiples iteraciones de selección, prueba y refinamiento de características.

Para contrastar los dos modelos de forma más concreta, consideremos un escenario de regresión lineal en el que queremos predecir la puntuación crediticia de alguien, en función de características como sus ahorros actuales. Podemos modelar esto como:

$Y_{c r e d i t s c o r e} = β_{0} + β_{1} X_{s a v i n g s}$

Ahorro de regresión lineal frente a puntuación de crédito

Regresión logística bajo el capó

Al igual que la regresión lineal, la regresión logística es un tipo de modelo lineal que pertenece a la familia de modelos lineales generalizados (GLM). Como en el ejemplo anterior, si queremos representar la probabilidad de aprobar o no aprobar, aplicamos la función lineal.

$Y_{a p p r o v a l} = β_{0} + β_{1} X_{s a v i n g s}$

Dado que la función lineal asume una relación lineal, a medida que cambian los valores de X, Y puede tomar un valor de (-inf, inf). Las probabilidades, como sabemos, se limitan a [0,1]. Utilizando este principio de modelo lineal, no podemos modelar directamente las probabilidades de un resultado binario. En su lugar, necesitamos un modelo logístico para dar sentido a las probabilidades. Por lo tanto, queremos aplicar una transformación a la entrada para que el resultado pueda limitarse. Esta transformación se conoce como ecuación de regresión logística. Esta ecuación puede parecer compleja, pero la desglosaremos paso a paso en la siguiente sección.

$Y = P (x) = \frac{e^{β_{0} + β_{1} x}}{1 + e^{β_{0} + β_{1} x}}$

Aprobación de préstamos por importe de ahorro

La transformación sigmoidea nos permite hacer una predicción binaria para el caso de uso anterior. Después de aplicar la transformación, el valor de X puede tomar (-inf, inf) y y se limitará a [0,1]

Para entender la función de regresión logística (o la función sigmoidea), necesitamos una base sólida sobre los siguientes conceptos:

Odds, log-odds y odds ratio
Coeficientes de la regresión logística
Estimaciones de máxima verosimilitud (MLE)

Cuotas, cuotas logarítmicas y razón de cuotas

Cuotas

El logaritmo de la relación de probabilidades se conoce como función logit y forma la base de la regresión logística.

Como no podemos modelar las probabilidades directamente mediante una función lineal (porque las probabilidades están restringidas entre 0 y 1), en su lugar trabajamos con probabilidades. Aunque tanto la probabilidad como las cuotas representan la probabilidad de un resultado, difieren en su definición:

La probabilidad mide la posibilidad de que ocurra un evento entre todos los resultados posibles.

Un gráfico minimalista con círculos azules y rojos en un cuadrado blanco.

Las probabilidades comparan la probabilidad de que ocurra un evento con la probabilidad de que no ocurra.

Log Odds

Siendo p(x) la probabilidad de un resultado. Entonces, las probabilidades de x se definen como:

$o d d s (x) = \frac{p (x)}{1 - p (x)}$

Tomemos un ejemplo concreto:

Supongamos que una cesta contiene 3 manzanas y 5 naranjas.

- La probabilidad de coger una naranja es 5/(3+5) = 0,625

- Las probabilidades de recoger una naranja son 5/3 ≈ 1,667

Esto significa que recoger una naranja es ≈1,667 veces más probable que recoger una manzana. Por el contrario, las probabilidades de recoger una manzana son 3/5 = 0,6, que es inferior a 1, lo que indica que el resultado (recoger una manzana) es menos probable que improbable. Siguiendo la ecuación de las probabilidades, también podemos pensar en las probabilidades como la probabilidad de que ocurra un resultado sobre 1 - probabilidad de que ocurra el resultado. Por lo tanto, las probabilidades de recoger una naranja son = P(naranjas)/(1-P(naranjas))=0,625/(1-0,625)≈1,667

Las probabilidades pueden variar de 0 a infinito. Un valor de probabilidades superior a 1 indica un resultado favorable, inferior a 1 indica un resultado desfavorable e igual a 1 significa que el evento tiene la misma probabilidad de ocurrir que de no ocurrir.

Sin embargo, las probabilidades no son simétricas en torno a 1. Por ejemplo, las probabilidades de 2 y 0,5 representan "el doble de probabilidades" y "la mitad de probabilidades", pero están en escalas numéricas muy diferentes. Para abordar este desequilibrio, tomamos el logaritmo de las probabilidades, que transforma la escala ilimitada de probabilidades [0, ∞) en la recta numérica real (−∞, ∞). Esto se conoce como log-odds o logit y es la base del modelo de regresión logística.

Definimos las probabilidades de registro como:

$\log (\frac{p (x)}{1 - p (x)})$

Esta transformación nos permite expresar las probabilidades logarítmicas como una función lineal de la entrada:

$\log (\frac{p (x)}{1 - p (x)}) = β_{0} + β_{1} \cdot x_{1}$

Luego podemos exponenciar ambos lados para volver a las probabilidades:

$\frac{p (x)}{1 - p (x)} = e^{β_{0} + β_{1} \cdot x_{1}}$

Resolver para $p (x)$ obtenemos la función sigmoidea, que ayuda a garantizar que el valor predicho se mantenga entre 0 y 1:

$p (x) = \frac{e^{β_{0} + β_{1} \cdot x_{1}}}{1 + e^{β_{0} + β_{1} \cdot x_{1}}}$

Esta transformación permite que la regresión logística dé salida válida de probabilidades, aunque las modelamos utilizando una función lineal debajo.

Odds Ratio

Por último, introduzcamos la razón de probabilidades, un concepto que ayuda a interpretar el efecto de los coeficientes del modelo. La razón de probabilidades nos dice cómo cambian las probabilidades cuando la variable de entrada x1 aumenta en una unidad.

Digamos que las probabilidades del evento son:

$o d d s (x_{1}) = e^{β_{0} + β_{1} \cdot x_{1}}$

Si aumentamos x1 en una unidad, las nuevas probabilidades se convierten en:

$o d d s (x_{1} + 1) = e^{β_{0} + β_{1} (x_{1} + 1)} = e^{β_{0} + β_{1} x_{1}} \cdot e^{β_{1}}$

Esto significa que por cada aumento de una unidad en x1, las probabilidades se multiplican por eb1 . Este multiplicador es la razón de probabilidades.

- Si b1>1, entonces las probabilidades aumentan (el evento se vuelve más probable)

- Si b1<1, entonces las probabilidades disminuyen (los eventos se vuelven probables)

- Si b1=1, la razón de probabilidades es 0, lo que significa que la entrada no tiene efecto en las probabilidades

La razón de probabilidades le da a la regresión logística su interpretabilidad: le dice cómo cambian las probabilidades de un evento en función de las entradas, lo que es útil en muchos entornos aplicados, como la atención médica, el marketing y las finanzas. Sin embargo, no podemos interpretar los coeficientes de la misma manera que interpretamos los de la regresión lineal. En la siguiente sección, echemos un vistazo de cerca a cómo se determinan e interpretan los coeficientes.

Coeficientes de regresión logística

Predictores continuos

Recordemos lo anterior: en la regresión lineal, los coeficientes son fáciles de interpretar. Tomemos un ejemplo de una regresión lineal con variables continuas: para un aumento de una unidad en la característica de entrada x da como resultado un aumento de b1 unidades en el resultado predicho y. Esta relación directa funciona porque la regresión lineal supone una tasa de cambio constante entre las características de entrada y el objetivo. Su producción no tiene límites y crece linealmente.

Sin embargo, la regresión logística no modela y directamente, sino que modela la probabilidad de y a través de las probabilidades logarítmicas (el logaritmo de las probabilidades). Debido a esto, no podemos decir que un aumento de una unidad en x resulte en un cambio de unidad constante en y. En su lugar, interpretamos el coeficiente en términos de su efecto sobre las probabilidades logarítmicas y, por extensión, sobre las probabilidades y la probabilidad del resultado.

Más concretamente, en la regresión logística:

Un coeficiente positivo significa que las probabilidades logarítmicas del resultado aumentan a medida que aumenta la entrada. Esto corresponde a un aumento de la probabilidad.
Un coeficiente negativo significa que las probabilidades logarítmicas disminuyen a medida que aumenta la entrada. Esto corresponde a una disminución de la probabilidad.
Un coeficiente de cero significa que la variable no tiene efecto en el resultado.

Es importante destacar que la magnitud del coeficiente refleja lo fuerte que es esta influencia, y la razón de probabilidades (que es el exponencial del coeficiente) nos dice cuánto cambian las probabilidades para un aumento de una unidad en la variable.

Predictores categóricos

Al igual que otros algoritmos de machine learning, podemos incorporar variables categóricas para hacer predicciones para la regresión logística. Cuando trabajamos con variables categóricas o discretas, a menudo utilizamos técnicas de ingeniería de características como la codificación one-hot o variables ficticias para convertirlas a un formato binario que el modelo pueda utilizar.

Por ejemplo, utilizando el mismo concepto anterior, digamos que queremos predecir si alguien ha sido aprobado para un préstamo ( $y = 1$ para aprobado, $y = 0$ para no aprobado) en función de si todavía tienen una deuda existente:

- Let $x = 0$ significa que no tienen deuda existente

- Let $x = 1$ significa que tienen deuda existente

Nuestras probabilidades de registro de $y = a p p r o v a l$ sería $y = b_{0} + b_{1} * x_{1}$

El coeficiente $b_{1}$ , representa el cambio en las probabilidades logarítmicas de ser aprobado cuando la persona tiene una deuda existente, en comparación con alguien que no la tiene.

Para que esto sea más interpretable, podemos exponenciar b1 para obtener la razón de probabilidades:

Si $b_{1}$ es positivo, $e$ al poder de $b_{1}$ es mayor que 1, lo que significa que tener deuda existente aumenta las probabilidades de ser aprobado.
Si $b_{1}$ es negativo, $e$ al poder de $b_{1}$ es inferior a 1, lo que significa que tener deuda existente disminuye las probabilidades de aprobación.
Si $b_{1}$ es 0, $e$ al poder de $b_{1}$ es 1, lo que significa que el estado de la deuda no tiene ningún efecto.

Por lo tanto, aunque perdemos la interpretación directa de los coeficientes de la regresión lineal, la regresión logística sigue ofreciendo conocimientos ricos e interpretables, especialmente cuando los enmarcamos en términos de probabilidades y cambios de probabilidad. La magnitud del aumento o disminución de la probabilidad en función de $x$ no corresponde a una unidad de aumento en $x$ , pero depende de dónde $x$ está en un punto determinado.

AI Academy

Ponga la IA a trabajar para el servicio de atención al cliente

Vea cómo la IA generativa puede satisfacer a los clientes con una experiencia más fluida y aumentar la productividad de la organización en estas tres áreas clave: autoservicio, agentes humanos y operaciones del centro de contacto.

Ir al episodio

Estimación de máxima verosimilitud

Los coeficientes de regresión logística, $β 0$ y $β_{1}$ , se estiman utilizando la estimación de máxima verosimilitud (MLE). La idea central detrás de MLE es encontrar los parámetros que hacen que los datos observados sean más "probables" bajo el modelo de regresión logística.

En la regresión logística, modelamos la probabilidad de que la variable objetivo $y_{1}$ es 1 (por ejemplo, "aprobado") dada una entrada $x_{1}$ mediante el uso de la función logística (sigmoide):

$Y = P (x) = \frac{e^{β_{0} + β_{1} x}}{1 + e^{β_{0} + β_{1} x}}$

MLE prueba diferentes combinaciones de $b_{0}$ y $b_{1}$ , y para cada combinación, pregunta: ¿Cómo de probable es que veamos los resultados reales en nuestros datos, dados estos parámetros?

Esto se captura utilizando la función de probabilidad, que multiplica las probabilidades predichas para cada punto de datos:

$L (β_{0}, β_{1}) = \prod_{i = 1}^{n} p {(x_{i})}^{y_{i}} \cdot (1 - p (x_{i}))^{1 - y_{i}}$

- Si $y_{1} = 1$ =1 ("aprobado"), queremos que la probabilidad predicha del modelo $P (x_{1})$ estar tan cerca como 1. El término $p (x i)^{y} i$ aborda esto. Si los datos reales observados de y1 son realmente "aprobados" o 1, el término será 1.

- Si $y_{1} = 0$ =0, queremos que la probabilidad prevista sea cercana a 0. El término $(1 - p (x_{i}))^{1 - y_{i}}$ se encarga de este caso. Si los datos reales observados de $y 1$ es "no aprobado", o 0, el valor será $p (x_{i})$ será cercano a 0, por lo tanto $1 - p (x_{i})$ estará cerca de 1.

Así que para cada punto de datos, multiplicamos $p (x 1)$ O $1 - p (x_{i})$ , dependiendo de si la etiqueta real es 1 o 0. El producto sobre todos los ejemplos nos da un solo número: la probabilidad de ver todo el conjunto de datos bajo el modelo actual. Como podemos ver, si los resultados previstos (utilizando parámetros $b_{0}$ y $b_{1}$ ) se ajustan a los datos observados, se maximizará el valor de la probabilidad. La razón detrás de multiplicar todas las probabilidades es que asumimos que los resultados son independientes entre sí. En otras palabras, la probabilidad de aprobación de una persona no debe influir en la probabilidad de aprobación de otra persona.

Debido a que este producto puede ser extremadamente pequeño, generalmente trabajamos con la probabilidad logarítmica, que convierte el producto en una suma y es más fácil de calcular y optimizar.

Para encontrar los valores de $b_{0}$ y $b_{1}$ que maximizan la probabilidad logarítmica, utilizamos el descenso de gradiente, un algoritmo de optimización iterativo. En cada paso, calculamos cómo cambia la probabilidad logarítmica con respecto a cada parámetro (por ejemplo, su gradiente) y luego actualizamos los parámetros ligeramente en la dirección que aumenta la probabilidad. Con el tiempo, este proceso converge hacia los valores de $b_{0}$ y $b_{1}$ que mejor se ajusten a los datos.

Tipos de regresión logística

Existen tres tipos de modelos de regresión logística, que se definen en función de la respuesta categórica.

Regresión logística binaria: en este enfoque, la respuesta o variable dependiente es de naturaleza dicotómica, es decir, tiene solo dos resultados posibles (por ejemplo, 0 o 1). Algunos ejemplos populares de su uso incluyen la predicción de si un correo electrónico es spam o no spam, o si un tumor es maligno o no. Dentro de la regresión logística, este es el enfoque más utilizado y, de manera más general, es uno de los clasificadores más comunes para la clasificación binaria.
Regresión logística multinomial: en este tipo de modelo de regresión logística, la variable dependiente tiene tres o más resultados posibles; sin embargo, estos valores no tienen un orden especificado. Por ejemplo, los estudios cinematográficos quieren predecir qué género de película es probable que vea un espectador para comercializar las películas de manera más efectiva. Un modelo de regresión logística multinomial puede ayudar al estudio a determinar la fuerza de influencia que la edad, el sexo y el estado civil de una persona pueden tener en el tipo de película que prefiere. Luego, el estudio puede orientar una campaña publicitaria de una película específica hacia un grupo de personas que probablemente vayan a verla.
Regresión logística ordinal: este tipo de modelo de regresión logística se utiliza cuando la variable de respuesta tiene tres o más resultados posibles, pero en este caso, estos valores tienen un orden definido. Algunos ejemplos de respuestas ordinales incluyen las escalas de calificación de la A a la F o las escalas de calificación del 1 al 5.

Casos de uso de regresión logística

La regresión logística se usa comúnmente para problemas de predicción y clasificación. Algunos de estos casos de uso incluyen:

Detección de fraudes: los modelos de regresión logística pueden ayudar a los equipos a identificar anomalías en los datos, que son predictivas de fraude. Determinados comportamientos o características pueden tener una mayor asociación con las actividades fraudulentas, lo que resulta especialmente útil para las instituciones bancarias y otras entidades financieras a la hora de proteger a sus clientes. Las empresas basadas en SaaS también han empezado a adoptar estas prácticas para eliminar las cuentas de usuario falsas de sus conjuntos de datos cuando realizan análisis de datos en torno al rendimiento empresarial.
Predicción de enfermedades: en medicina, este enfoque analítico se puede utilizar para predecir la probabilidad de enfermedad o dolencia para una población determinada. Las organizaciones de atención médica pueden establecer atención preventiva para las personas que muestran una mayor propensión a enfermedades específicas.
Predicción de abandono: los comportamientos específicos pueden ser indicativos de abandono en diferentes funciones de una organización. Por ejemplo, los equipos de recursos humanos y gestión pueden querer saber si hay personas de alto rendimiento dentro de la empresa que corren el riesgo de abandonar la organización. Este tipo de conocimiento puede instruir conversaciones para comprender las áreas problemáticas dentro de la empresa, como la cultura o la compensación. Alternativamente, la organización de ventas puede querer saber cuáles de sus clientes corren el riesgo de llevar su actividad a otra parte. Esto puede hacer que los equipos establezcan una estrategia de retención para evitar la pérdida de ingresos.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el machine learning a su negocio.

¿Qué es la regresión logística?

Autor

¿Qué es la regresión logística?

Regresión logística frente a regresión lineal

Regresión logística bajo el capó

Cuotas, cuotas logarítmicas y razón de cuotas

Cuotas

Log Odds

Odds Ratio

Coeficientes de regresión logística

Predictores continuos

Predictores categóricos

Ponga la IA a trabajar para el servicio de atención al cliente

Estimación de máxima verosimilitud

Tipos de regresión logística

Casos de uso de regresión logística

Recursos