Mi IBM Inicie sesión Suscríbase

¿Qué es la regularización?

16 de noviembre de 2023

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

¿Qué es la regularización?

La regularización es un conjunto de métodos para reducir el sobreajuste en los modelos de machine learning. Normalmente, la regularización compensa una disminución marginal en la precisión del entrenamiento con un aumento en la generalización.

La regularización abarca una serie de técnicas para corregir el sobreajuste en los modelos de machine learning. Como tal, la regularización es un método para aumentar la generalizabilidad de un modelo, es decir, su capacidad para producir predicciones precisas sobre nuevos conjuntos de datos1. La regularización proporciona esta mayor generalización a costa de un mayor error de entrenamiento. En otras palabras, los métodos de regularización suelen dar lugar a predicciones menos precisas en los datos de entrenamiento, pero más precisas en los datos de prueba.

La regularización se diferencia de la optimización. Básicamente, el primero aumenta la generalizabilidad del modelo, mientras que el segundo aumenta la precisión del entrenamiento del modelo. Ambos son conceptos importantes en el machine learning y la ciencia de datos.

Existen muchas formas de regularización. Cualquier cosa que se parezca a una guía completa requiere un tratamiento mucho más extenso. Sin embargo, este artículo proporciona una descripción general de la teoría necesaria para comprender el propósito de la regularización en el machine learning, así como un estudio de varias técnicas de regularización populares.

Equilibrio entre sesgo y varianza

Esta concesión de un mayor error de entrenamiento por un menor error de prueba se conoce como compensación de sesgo-varianza. La compensación entre sesgo y varianza es un problema muy conocido en el machine learning. Es necesario definir primero "sesgo" y "varianza". En pocas palabras:

- El sesgo mide la diferencia media entre los valores pronosticados y los valores reales. A medida que aumenta el sesgo, un modelo predice con menos precisión en un conjunto de datos de entrenamiento. Un sesgo alto se refiere a un error alto en el entrenamiento.

- La varianza mide la diferencia entre las predicciones en varias realizaciones de un modelo determinado. A medida que aumenta la varianza, un modelo predice con menos precisión sobre datos no vistos. Una varianza elevada implica un alto nivel de error durante las pruebas y la validación.

El sesgo y la varianza representan inversamente la precisión del modelo en los conjuntos de entrenamiento y prueba, respectivamente2. Obviamente, los desarrolladores pretenden reducir tanto el sesgo como la varianza del modelo. La reducción simultánea en ambos no siempre es posible, lo que resulta en la necesidad de regularización. La regularización disminuye la varianza del modelo a costa de un mayor sesgo.

Ajustes del modelo de regresión

Al aumentar el sesgo y disminuir la varianza, la regularización resuelve el sobreajuste del modelo. El sobreajuste se produce cuando el error en los datos de entrenamiento disminuye mientras que el error en los datos de prueba deja de disminuir o comienza a aumentar3. En otras palabras, el sobreajuste describe modelos con bajo sesgo y alta varianza. No obstante, si la regularización introduce demasiados sesgos, el modelo no se ajustará bien.

A pesar de su nombre, el subajuste no denota lo contrario del sobreajuste. El subajuste describe modelos caracterizados por un alto sesgo y una alta varianza. Un modelo mal ajustado produce predicciones insatisfactoriamente erróneas durante el entrenamiento y las pruebas. Esto suele deberse a datos o parámetros de entrenamiento insuficientes.

Sin embargo, la regularización también puede conducir potencialmente a un ajuste insuficiente del modelo. Si se introduce demasiado sesgo mediante la regularización, la varianza del modelo puede dejar de disminuir e incluso aumentar. La regularización puede tener este efecto sobre todo en modelos simples, es decir, con pocos parámetros. Al determinar el tipo y el grado de regularización que se va a implementar, hay que tener en cuenta la complejidad del modelo, el conjunto de datos, etc4.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

Tipos de regularización con modelos lineales

La regresión lineal y la regresión logística son modelos predictivos subyacentes al machine learning. La regresión lineal (o de mínimos cuadrados ordinarios) pretende medir y predecir el impacto de uno o más predictores sobre un output dado encontrando la línea que mejor se ajuste a través de los puntos de datos proporcionados (es decir, los datos de entrenamiento). La regresión logística pretende determinar las probabilidades de clase de mediante una salida binaria dada una serie de predictores. En otras palabras, la regresión lineal realiza predicciones cuantitativas continuas, mientras que la regresión logística produce predicciones categóricas discretas5.

Por supuesto, a medida que aumenta el número de predictores en cualquiera de los modelos de regresión, la relación insumo-producto no siempre es directa y requiere manipular la fórmula de regresión. Introduzca la regularización. Existen tres formas principales de regularización para los modelos de regresión. Tenga en cuenta que esta lista es solo un breve repaso. La aplicación de estas técnicas de regularización en la regresión lineal o logística varía minuciosamente.

- La regresión de Lasso (o regularización L1) es una técnica de regularización que penaliza los coeficientes correlacionados de alto valor. Introduce un término de regularización (también llamado término de penalización) en la función de pérdida de la suma de errores al cuadrado (SSE) del modelo. Este término de penalización es el valor absoluto de la suma de coeficientes. Controlado a su vez por el hiperparámetro lambda (λ), reduce los pesos de las características seleccionadas a cero. De este modo, la regresión Lasso elimina por completo las características multicolineales del modelo.

- La regresión de Ridge (o regularización L2) es una técnica de regularización que penaliza de manera similar los coeficientes de alto valor introduciendo un término de penalización en la función de pérdida SSE. Sin embargo, difiere de la regresión de Lasso. En primer lugar, el término de penalización en la regresión de Ridge es la suma al cuadrado de los coeficientes en lugar del valor absoluto de los coeficientes. En segundo lugar, la regresión de Ridge no promulga la selección de características. Mientras que el término de penalización de la regresión de Lasso puede eliminar características del modelo reduciendo los valores de los coeficientes a cero, la regresión de Ridge sólo reduce los pesos de las características hacia cero, pero nunca a cero.

- La regularización de red elástica combina esencialmente la regresión de Ridge y Lasso, pero inserta los términos de penalización L1 y L2 en la función de pérdida SSE. L2 y L1 derivan su valor del término de penalización, respectivamente, elevando al cuadrado o tomando el valor absoluto de la suma de los pesos de las características. La red elástica inserta ambos valores de penalización en la ecuación de la función de coste (SSE). De este modo, la red elástica aborda la multicolinealidad a la vez que posibilita la selección de características6.

En estadística, estos métodos también se denominan "reducción de coeficientes", ya que reducen los valores de los coeficientes predictores en el modelo predictivo. En las tres técnicas, la fuerza del término de penalización está controlada por lambda, que se puede calcular utilizando varias técnicas de validación cruzada.

Mixture of Experts | Pódcast

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Tipos de regularización en machine learning

Conjunto de datos

El aumento de datos es una técnica de regularización que modifica los datos de entrenamiento del modelo. Amplía el tamaño del conjunto de entrenamiento creando muestras de datos artificiales derivadas de datos de entrenamiento preexistentes. Añadir más muestras al conjunto de entrenamiento, sobre todo de casos poco frecuentes en los datos del mundo real, expone un modelo a una mayor cantidad y diversidad de datos de los que aprender. La investigación en machine learning ha estudiado recientemente el aumento de datos para clasificadores, en particular como medio de resolver conjuntos de datos desequilibrados7. Sin embargo, el aumento de datos difiere de los datos sintéticos. El segundo implica la creación de nuevos datos artificiales, mientras que el primero produce duplicados modificados de datos preexistentes para diversificar y ampliar el conjunto de datos.

Entrenamiento de modelos

La detención temprana es quizás la técnica de regularización que más fácilmente se aplica. En resumen, limita el número de iteraciones durante el entrenamiento del modelo. En este caso, un modelo pasa continuamente por los datos de entrenamiento, deteniéndose una vez que no hay mejora (y quizá incluso deterioro) en la precisión del entrenamiento y la validación. El objetivo es entrenar un modelo hasta que alcance el menor error de entrenamiento posible antes de una meseta o un aumento en el error de validación8.

Muchos paquetes Python de machine learning proporcionan una opción de comando de entrenamiento para la detención temprana. De hecho, en algunos, parar anticipadamente es el entorno de entrenamiento por defecto.

Redes neuronales

Las redes neuronales son modelos complejos de machine learning que impulsan muchas aplicaciones y servicios de inteligencia artificial. Las redes neuronales se componen de una capa de entrada, una o más capas ocultas y una capa de salida, cada capa a su vez compuesta por varios nodos.

El abandono regulariza las redes neuronales eliminando aleatoriamente nodos, junto con sus conexiones de entrada y salida, de las redes neuronales durante el entrenamiento (Fig. 3). El abandono entrena varias variaciones de una arquitectura de tamaño fijo, con cada variación con diferentes nodos aleatorios dejados fuera de la arquitectura. Para las pruebas se utiliza una única red neuronal sin abandono, empleando un método de promedio aproximado derivado de las arquitecturas de entrenamiento modificadas aleatoriamente. De esta manera, el abandono se aproxima al entrenamiento de una gran cantidad de redes neuronales con una multitud de arquitecturas diversificadas9.

La caída del peso es otra forma de regularización utilizada para las redes neuronales profundas. Reduce la suma de los pesos cuadrados de la red mediante un parámetro de regularización, al igual que la regularización L2 en los modelos lineales10. Pero cuando se emplea en redes neuronales, esta reducción tiene un efecto similar a la regularización L1: select los pesos de las neuronas disminuyen a cero11. Esto elimina eficazmente los nodos de la red, reduciendo la complejidad de la red a través de la dispersión12.

La caída del peso puede parecer superficialmente similar al abandono en las redes neuronales profundas, pero las dos técnicas son diferentes. Una de las principales diferencias es que, en el abandono, el valor de penalización crece exponencialmente en la profundidad de la red en los casos, mientras que el valor de penalización por caída de peso aumenta de forma lineal. Algunos creen que esto permite que el abandono penalice de manera más significativa la complejidad de la red que la disminución del peso13.

Muchos artículos y tutoriales en línea combinan incorrectamente la regularización L2 y la caída del peso. De hecho, la beca es incoherente: algunos distinguen entre la L2 y la caída de peso14, otros la equiparan15, mientras que otros son inconsistentes al describir la relación entre ellos16. Resolver esas incoherencias en la terminología es un área necesaria pero pasada por alto para futuras becas.

Soluciones relacionadas

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demostración en directo
Notas a pie de página

1 Ian Goodfellow, Yoshua Bengio y Aaron Courville. Deep Learning. MIT Press. 2016. https://www.deeplearningbook.org/

2 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani y Jonathan Taylor. An Introduction to Statistical Learning with Applications in Python. Springer. 2023. https://link.springer.com/book/10.1007/978-3-031-38747-0

3 Ian Goodfellow, Yoshua Bengio y Aaron Courville. Deep Learning. MIT Press. 2016. https://www.deeplearningbook.org/

4 Vincent Vandenbussche. The Regularization Cookbook. Packt Publishing. 2023.

5 Gareth James, Daniela Witten, Trevor Hastie, Robert Tibshirani y Jonathan Taylor. An Introduction to Statistical Learning with Applications in Python. Springer. 2023. https://link.springer.com/book/10.1007/978-3-031-38747-0

6 Max Kuhn y Kjell Johnson. Applied Predictive Modeling. Springer. 2016. Ludwig Fahrmeir, Thomas Kneib, Stefan Lang y Brian D. Marx. Regression: Models, Methods and Applications. 2ª edición. Springer. 2021.

7 Trong-Hieu Nguyen-Mau, Tuan-Luc Huynh, Thanh-Danh Le, Hai-Dang Nguyen y Minh-Triet Tran. "Advanced Augmentation and Ensemble Approaches for Classifying Long-Tailed Multi-Label Chest X-Rays". Actas de la conferencia internacional IEEE/CVF sobre visión artificial (ICCV). 2023. PP. 2729-2738. https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Nguyen-Mau_Advanced_Augmentation_and_Ensemble_Approaches_for_Classifying_Long-Tailed_Multi-Label_Chest_ICCVW_2023_paper.html . Changhyun Kim, Giyeol Kim, Sooyoung Yang, Hyunsu Kim, Sangyool Lee y Hansu Cho"Chest X-Ray Feature Pyramid Sum Model with Diseased Area Data Augmentation Method." Actas de la conferencia internacional IEEE/CVF sobre visión artificial (ICCV). 2023. PP. 2757-2766. https://openaccess.thecvf.com/content/ICCV2023W/CVAMD/html/Kim_Chest_X-Ray_Feature_Pyramid_Sum_Model_with_Diseased_Area_Data_ICCVW_2023_paper.html.

8 Grégoire Montavon, Geneviève B. Orr y Klaus-Robert Müller. Neural Networks: Tricks of the Trade. 2ª edición. Springer,. 2012.

9 Nitish Srivastava, Geoffrey Hinton, Alex Krizhevsky, Ilya Sutskever y Ruslan Salakhutdinov. "Dropout: A Simple Way to Prevent Neural Networks from Overfitting". Journal of Machine Learning Research. Vol. 15. N.º 56. 2014. PP. 1929−1958. https://jmlr.org/papers/v15/srivastava14a.html

10 Max Kuhn y Kjell Johnson. Applied Predictive Modeling. Springer. 2016.

11 Rahul Parhi y Robert D. Nowak. "Deep Learning Meets Sparse Regularization: A Signal Processing Perspective". IEEE Signal Processing Magazine. Vol. 40. N.º 6. 2023. PP. 63-74. https://arxiv.org/abs/2301.09554

12 Stephen Hanson y Lorien Pratt. "Comparing Biases for Minimal Network Construction with Back-Propagation". Advances in Neural Information Processing Systems 1. 1988. PP. 177-185. https://proceedings.neurips.cc/paper/1988/file/1c9ac0159c94d8d0cbedc973445af2da-Paper.pdf

13 David P. Helmbold, Philip M. Long. "Surprising properties of dropout in deep networks". Journal of Machine Learning Research. Vol. 18. N.º 200. 2018. PP. 1−28. https://jmlr.org/papers/v18/16-549.html

14 Guodong Zhang, Chaoqi Wang, Bowen Xu y Roger Grosse. "Three Mechanisms of Weight Decay Regularization." International Conference on Learning Representations (ILCR) 2019. https://arxiv.org/abs/1810.12281

15 David P. Helmbold y Philip M. Long. "Fundamental Differences between Dropout and Weight Decay in Deep Networks". 2017. https://arxiv.org/abs/1602.04484v3

16 Ian Goodfellow, Yoshua Bengio y Aaron Courville. Deep Learning. MIT Press. 2016, https://www.deeplearningbook.org/