En pocas palabras, el sobreajuste es lo opuesto al subajuste, y se produce cuando el modelo ha sido sobreentrenado o cuando contiene demasiada complejidad, de modo que se generan altos índices de error en los datos de prueba. El sobreajuste de un modelo es más habitual que el subajuste, que se suele producir cuando se intenta evitar el sobreajuste por medio de un proceso llamado "detención temprana".
Si el subajuste está provocado por un entrenamiento insuficiente o por la falta de complejidad, una estrategia de prevención lógica sería aumentar la duración del entrenamiento o añadir entradas más relevantes. Sin embargo, si el modelo se entrena demasiado o se le añaden demasiadas funciones, puede acabar sobreajustado y con un sesgo bajo pero una alta varianza (es decir, la compensación de sesgo-varianza). En este caso, el modelo estadístico se ajusta demasiado a sus datos de entrenamiento, de modo que no puede generalizar bien a nuevos puntos de datos. Cabe tener en cuenta que algunos tipos de modelos son más propensos al sobreajuste que otros, como los árboles de decisión o los KNN.
El sobreajuste puede ser más difícil de identificar que el subajuste, porque a diferencia de este, los datos de entrenamiento funcionan con una alta precisión en un modelo sobreajustado. Para evaluar la precisión de un algoritmo, se suele utilizar una técnica denominada validación cruzada de k iteraciones.
En la validación cruzada de k iteraciones, los datos se dividen en k subconjuntos de igual tamaño, que también se denominan "iteraciones". Una de las k iteraciones actuará como conjunto de pruebas, también denominado conjunto de retención o conjunto de validación, y las iteraciones restantes entrenarán el modelo. Este proceso se repite hasta que todas las iteraciones hayan actuado como iteración de retención. Después de cada evaluación, se retiene una puntuación, y cuando se han completado todas las iteraciones, las puntuaciones se promedian para evaluar el rendimiento del modelo general.
Al ajustar un modelo, lo ideal es encontrar el equilibrio entre el sobreajuste y el subajuste. Identificar ese punto óptimo intermedio permite que los modelos de machine learning hagan predicciones con precisión.