En termes de machine learning, la régression Ridge consiste à ajouter un biais dans un modèle pour en réduire la variance. Le dilemme biais-variance est un problème bien connu dans le machine learning. Mais pour comprendre le dilemme biais-variance, il convient d’abord de savoir ce que l’on entend respectivement par « biais » et par « variance » dans les recherches en machine learning.
En bref, le biais mesure la différence moyenne entre les valeurs prédites et les valeurs réelles ; la variance mesure la différence entre les prédictions issues des différentes réalisations d'un modèle donné. Au fur et à mesure que le biais augmente, les prédictions à partir du jeu de données d'entraînement sont moins précises. Au fur et à mesure que la variance augmente, les prédictions à partir d'autres jeux de données d'entraînement sont moins précises. Le biais et la variance mesurent donc la précision du modèle sur les jeux d'entraînement et de test respectivement. De toute évidence, les développeurs espèrent réduire le biais et la variance des modèles. Il n'est cependant pas toujours possible de réduire simultanément les deux, d'où la nécessité de recourir à des techniques de régularisation telles que la régression de crête.
Comme nous l’avons déjà mentionné, la régularisation par régression Ridge introduit un biais supplémentaire pour réduire la variance. En d’autres termes, les modèles régularisés par la régression Ridge produisent des prédictions moins précises à partir des données d’entraînement (biais plus élevé), et plus précises à partir des données de test (faible variance). Il s’agit d’un dilemme biais-variance. Grâce à la régression Ridge, les utilisateurs déterminent un niveau de perte de précision acceptable pour l’entraînement (biais plus élevé), afin d’améliorer la généralisabilité d’un modèle donné (variance inférieure).13 Augmenter le biais permet ainsi d’améliorer la performance globale du modèle.
La force de la pénalité L2, et donc du compromis biais-variance du modèle, est déterminée par la valeur λ dans l’équation de la fonction de perte de l’estimateur Ridge. Si λ est égal à zéro, il reste une fonction des moindres carrés ordinaires. Cela crée un modèle de régression linéaire standard sans aucune régularisation. En revanche, une valeur λ plus élevée signifie une plus grande régularisation. À mesure que λ augmente, le biais du modèle augmente tandis que la variance diminue. Ainsi, lorsque λ est égal à zéro, le modèle se surajuste aux données d’entraînement, mais lorsque λ est trop élevé, le modèle se sous-ajuste sur toutes les données.14
L’erreur quadratique moyenne (MSE) peut permettre de déterminer une valeur λ appropriée. La MSE est étroitement liée à la RSS et constitue un moyen de mesurer la différence, en moyenne, entre les valeurs prédites et les valeurs réelles. Plus la MSE d’un modèle est faible, plus ses prédictions sont précises. Mais la MSE augmente à mesure que λ augmente. Néanmoins, on peut affirmer qu’il existe toujours une valeur de λ supérieure à zéro de sorte que la MSE obtenue par la régression Ridge est inférieure à celle obtenue par la méthode des moindres carrés ordinaires.15 Pour déduire une valeur de λ appropriée, il existe une méthode qui consiste à trouver la valeur de λ la plus élevée qui n’augmente pas la MSE, comme l’illustre la figure 2. D’autres techniques de validation croisée peuvent aider les utilisateurs à sélectionner les valeurs λ optimales pour le réglage de leur modèle.16