Qu’est-ce que la régression Ridge ?

Auteurs

Jacob Murel Ph.D.

Senior Technical Content Creator

Business Development + Partnerships

IBM Research

Qu’est-ce que la régression Ridge ?

La régression Ridge est une technique de régularisation statistique qui permet de corriger le surapprentissage sur les données d’entraînement des modèles de machine learning.

La méthode de régression Ridge, également connue sous le nom de « régularisation L2 », est l’un des types de régularisation qui s’appliquent aux modèles de régression linéaire. La régularisation est une méthode statistique qui permet de réduire le risque d’erreur lié au surajustement des données d’entraînement. La régression Ridge corrige spécifiquement la multicolinéarité dans l’analyse de régression. Cela s’avère utile lors du développement de modèles de machine learning qui comportent un grand nombre de paramètres, en particulier si ces paramètres ont également des poids élevés. Bien que cet article se concentre sur la régularisation des modèles de régression linéaire, notez que la régression Ridge peut également être appliquée dans la régression logistique.

Le problème : la multi-colinéarité

Une équation de régression linéaire standard à variables multiples est la suivante :

Formule de régression linéaire multivariée standard

Ici, Y est la valeur prédite (variable dépendante), X est n’importe quel prédicteur (variable indépendante), B est le coefficient de regression associé à cette variable indépendante et X₀ est la valeur de la variable dépendante lorsque la variable indépendante est égale à zéro (également appelée ordonnée à l’origine). Les coefficients marquent la relation entre la variable dépendante et une variable indépendante donnée.

On parle de multi-colinéarité lorsque deux ou plusieurs variables prédictives ont une relation quasi linéaire. Montgomery et al. proposent un bon exemple : imaginez que nous analysions un jeu de données sur les livraisons de la chaîne d'approvisionnement dans lequel les livraisons sur de longues distances contiennent régulièrement un grand nombre d'articles alors que les livraisons sur de courtes distances contiennent toujours des stocks plus petits. Dans ce cas, la distance de livraison et la quantité d'articles sont corrélées de façon linéaire, comme le montre la figure 1. Cela pose des problèmes lors de l'utilisation de ces données comme variables indépendantes dans un modèle prédictif unique.

Diagramme de dispersion montrant la corrélation linéaire entre les variables indépendantes, la distance de l'ordre et la taille

Il ne s’agit-là que d’un exemple de multicolinéarité et sa solution est relativement simple : collecter des données plus diversifiées (par exemple pour les livraisons sur courtes distances avec des stocks importants). Cependant, la collecte de données supplémentaires n’est pas toujours un correctif viable, par exemple lorsque la multicolinéarité est intrinsèque aux données étudiées. Parmi les autres options permettant de corriger la multicolinéarité, citons l’augmentation de la taille de l’échantillon, la réduction du nombre de variables indépendantes ou simplement le déploiement d’un modèle différent. Cependant, ces correctifs ne parviennent pas toujours à éliminer la multicolinéarité, et la régression Ridge constitue une autre méthode qui permet de régulariser un modèle afin de gérer ce phénomène.¹

Fonctionnement de la régression Ridge : l’algorithme de régularisation

Lors du développement initial de modèles prédictifs, nous devons souvent calculer des coefficients, car ceux-ci ne sont pas explicitement indiqués dans les données d'entraînement. Pour estimer les coefficients, nous pouvons utiliser un estimateur matriciel standard des moindres carrés ordinaires (MCO) :

Estimateur de coefficient de matrice des moindres carrés ordinaires

La connaissance des opérations de cette formule nécessite de maîtriser la notation matricielle. En résumé, cette formule vise à trouver la ligne la mieux adaptée à un jeu de données spécifique en calculant les coefficients de chaque variable indépendante qui donnent collectivement la plus petite somme des carrés des résidus (également appelée somme des erreurs quadratiques).²

La somme des carrés résiduels (RSS) mesure l'adéquation d'un modèle de régression linéaire avec les données d'entraînement. Elle est représentée par la formule :

Formule de la somme des carrés des résidus

Cette formule mesure la précision des prédictions du modèle pour les valeurs de vérité terrain des données d’apprentissage. Si RSS = 0, le modèle prédit parfaitement les variables dépendantes. Un score de zéro n’est cependant pas toujours souhaitable, car il peut indiquer un surajustement sur les données d’apprentissage, en particulier si le jeu de données d’entraînement est petit. La multicolinéarité peut en être l’une des causes.

Des estimations de coefficient élevées peuvent souvent être symptomatiques d’un surajustement.³ Si deux variables ou plus présentent une corrélation linéaire élevée, les moindres carrés ordinaires (MCO) peuvent renvoyer des coefficients de valeur élevée erronés. Lorsqu’un ou plusieurs coefficients sont trop élevés, les résultats du modèle deviennent sensibles à des altérations mineures dans les données d’entrée. En d’autres termes, le modèle s’est surajusté à un jeu d’entraînement spécifique et ne parvient pas à se généraliser avec précision sur de nouveaux jeux de test. Un tel modèle est considéré comme instable.⁴

La régression Ridge modifie les MCO en calculant des coefficients qui tiennent compte des prédicteurs potentiellement corrélés. Plus précisément, la régression Ridge corrige les coefficients élevés en introduisant un terme de régularisation (souvent appelé terme de pénalité) dans la fonction RSS. Ce terme de pénalité est la somme des carrés des coefficients du modèle.⁵Il est représenté par la formule suivante :

Le terme de pénalité L2 est inséré à la fin de la fonction RSS, ce qui donne une nouvelle formulation, l'estimateur de régression de crête. Dans ce cas, son effet sur le modèle est contrôlé par l'hyper-paramètre lambda (λ) :

Formule de régression de crête ou formule RSS avec terme de pénalité L2

Rappelez-vous que les coefficients indiquent l’effet d’un prédicteur donné (c’est-à-dire de la variable indépendante) sur la valeur prédite (c’est-à-dire la variable dépendante). Une fois ajouté à la formule RSS, le terme de pénalité L2 compense les coefficients particulièrement élevés en réduisant tous les coefficients. En statistiques, c’est ce que l’on appelle la réduction du coefficient. L’estimateur Ridge ci-dessus calcule donc de nouveaux coefficients de régression qui réduisent la RSS d’un modèle donné. Cela minimise l’effet de chaque prédicteur et réduit le surajustement sur les données d’entraînement.⁶

Notez que la régression Ridge ne réduit pas chaque coefficient à partir de la même valeur. Au contraire, les coefficients sont réduits proportionnellement à leur taille initiale. Lorsque λ augmente, les coefficients de valeur élevée diminuent plus rapidement que les coefficients de faible valeur.⁷ Les coefficients élevés sont donc plus pénalisés que les coefficients faibles.

Régression Ridge et régression Lasso

Notez que la pénalité L2 réduit les coefficients vers zéro, mais jamais vers le zéro absolu. Bien que les poids des caractéristiques du modèle puissent devenir si petits qu’ils en sont négligeables, ils ne sont jamais égaux à zéro dans la régression Ridge. La réduction d’un coefficient à zéro supprime en réalité le prédicteur appairé du modèle. C’est ce que l’on appelle la sélection des caractéristiques, qui est un autre moyen de corriger la multicolinéarité.⁸Comme la régression Ridge ne réduit pas les coefficients de régression à zéro, elle n’exécute pas la sélection des caractéristiques.⁹ Ce point est souvent cité comme un inconvénient de la régression Ridge. En outre, un autre inconvénient souvent cité est l’incapacité de la régression Ridge à séparer les effets des prédicteurs en cas de multicolinéarité sévère.¹⁰

La régression Lasso, également appelée régularisation L1, est l'une des autres méthodes de régularisation de la régression linéaire. La régularisation L1 fonctionne en réduisant les coefficients à zéro, éliminant essentiellement ces variables indépendantes du modèle. La régression Lasso et la régression de crête réduisent donc la complexité du modèle, mais par des moyens différents. La régression Lasso réduit le nombre de variables indépendantes affectant le résultat. La régression de crête réduit le poids de chaque variable indépendante sur le résultat.

Autres techniques de régularisation de régression

La régression Elastic Net est une autre forme de régularisation. Alors que la régression Ridge obtient son paramètre de régularisation à partir de la somme des erreurs quadratiques et que la régression Lasso obtient le sien à partir de la somme des erreurs absolues, la régression Elastic Net intègre ces deux paramètres de régularisation dans la fonction de coût RSS.¹¹

La régression sur composantes principales (PCR) peut également servir de procédure de régularisation. Si la PCR peut résoudre la multicolinéarité, elle ne le fait pas en appliquant une pénalité à la fonction RSS, comme dans les régressions Ridge et Lasso. La PCR produit plutôt des combinaisons linéaires de prédicteurs corrélés à partir desquels il est possible de créer un nouveau modèle basé sur la méthode des moindres carrés.¹²

Newsletter sectorielle

Les dernières tendances en matière d’IA, vues par des experts

Obtenez des informations sur les actualités les plus importantes et les plus intrigantes en matière d’intelligence artificielle. Abonnez-vous à notre newsletter hebdomadaire Think. Lire la Déclaration de confidentialité d’IBM.

Régression Ridge dans le machine learning

Complexité des modèles

En machine learning, la regression Ridge permet de réduire le surapprentissage résultant de la complexité du modèle, à savoir :

Le modèle possède trop de fonctionnalités. Les fonctionnalités sont les prédicteurs du modèle, également appelés « paramètres » dans le machine learning. Bon nombre de tutoriels en ligne recommandent de conserver un nombre de fonctionnalités inférieur au nombre d’instances présentes dans les jeux de données d’entraînement. Cela n’est cependant pas toujours possible.
Fonctionnalités trop lourdes. Le poids des fonctionnalités fait référence à l'effet d'un prédicteur donné sur les résultats du modèle. Un poids de fonctionnalité élevé équivaut à un coefficient élevé.

Les modèles plus simples ne sont pas intrinsèquement plus performants que les modèles complexes. Néanmoins, un degré élevé de complexité du modèle peut entraver la capacité d'un modèle à se généraliser sur de nouvelles données en dehors du jeu d'entraînement.

La régression Ridge n’effectue pas de sélection de caractéristiques, elle ne peut donc pas réduire la complexité du modèle en éliminant des caractéristiques. Mais si une ou plusieurs caractéristiques affectent trop fortement la sortie d’un modèle, la régression Ridge peut réduire les poids de caractéristiques élevés (c’est-à-dire les coefficients) sur l’ensemble du modèle en utilisant le terme de pénalité L2. Cela permet de réduire la complexité du modèle et de faire en sorte que ses prédictions ne dépendent pas de manière aussi imprévisible d’une ou de plusieurs caractéristiques.

Compromis biais-variance

En termes de machine learning, la régression Ridge consiste à ajouter un biais dans un modèle pour en réduire la variance. Le dilemme biais-variance est un problème bien connu dans le machine learning. Mais pour comprendre le dilemme biais-variance, il convient d’abord de savoir ce que l’on entend respectivement par « biais » et par « variance » dans les recherches en machine learning.

En bref, le biais mesure la différence moyenne entre les valeurs prédites et les valeurs réelles ; la variance mesure la différence entre les prédictions issues des différentes réalisations d'un modèle donné. Au fur et à mesure que le biais augmente, les prédictions à partir du jeu de données d'entraînement sont moins précises. Au fur et à mesure que la variance augmente, les prédictions à partir d'autres jeux de données d'entraînement sont moins précises. Le biais et la variance mesurent donc la précision du modèle sur les jeux d'entraînement et de test respectivement. De toute évidence, les développeurs espèrent réduire le biais et la variance des modèles. Il n'est cependant pas toujours possible de réduire simultanément les deux, d'où la nécessité de recourir à des techniques de régularisation telles que la régression de crête.

Comme nous l’avons déjà mentionné, la régularisation par régression Ridge introduit un biais supplémentaire pour réduire la variance. En d’autres termes, les modèles régularisés par la régression Ridge produisent des prédictions moins précises à partir des données d’entraînement (biais plus élevé), et plus précises à partir des données de test (faible variance). Il s’agit d’un dilemme biais-variance. Grâce à la régression Ridge, les utilisateurs déterminent un niveau de perte de précision acceptable pour l’entraînement (biais plus élevé), afin d’améliorer la généralisabilité d’un modèle donné (variance inférieure).¹³Augmenter le biais permet ainsi d’améliorer la performance globale du modèle.

La force de la pénalité L2, et donc du compromis biais-variance du modèle, est déterminée par la valeur λ dans l’équation de la fonction de perte de l’estimateur Ridge. Si λ est égal à zéro, il reste une fonction des moindres carrés ordinaires. Cela crée un modèle de régression linéaire standard sans aucune régularisation. En revanche, une valeur λ plus élevée signifie une plus grande régularisation. À mesure que λ augmente, le biais du modèle augmente tandis que la variance diminue. Ainsi, lorsque λ est égal à zéro, le modèle se surajuste aux données d’entraînement, mais lorsque λ est trop élevé, le modèle se sous-ajuste sur toutes les données.¹⁴

L’erreur quadratique moyenne (MSE) peut permettre de déterminer une valeur λ appropriée. La MSE est étroitement liée à la RSS et constitue un moyen de mesurer la différence, en moyenne, entre les valeurs prédites et les valeurs réelles. Plus la MSE d’un modèle est faible, plus ses prédictions sont précises. Mais la MSE augmente à mesure que λ augmente. Néanmoins, on peut affirmer qu’il existe toujours une valeur de λ supérieure à zéro de sorte que la MSE obtenue par la régression Ridge est inférieure à celle obtenue par la méthode des moindres carrés ordinaires.¹⁵ Pour déduire une valeur de λ appropriée, il existe une méthode qui consiste à trouver la valeur de λ la plus élevée qui n’augmente pas la MSE, comme l’illustre la figure 2. D’autres techniques de validation croisée peuvent aider les utilisateurs à sélectionner les valeurs λ optimales pour le réglage de leur modèle.¹⁶

Graphique modélisant la relation entre la MSE, le biais, la variance et le terme de pénalité lambda

Quelques cas d’utilisation

Les modèles de régression Ridge conviennent particulièrement aux jeux de données qui possèdent deux caractéristiques corrélées ou plus. En outre, de nombreux domaines utilisent la régression Ridge pour traiter les modèles avec un grand nombre de prédicteurs et de petits jeux de données d’entraînement.¹⁷ De telles situations peuvent être assez courantes lorsque les données sont variées.

Biostatistique

La biologie informatique et les études génétiques utilisent souvent des modèles dans lesquels le nombre de prédicteurs est largement supérieur à la taille des échantillons des jeux de données, en particulier lorsqu'il s'agit d'étudier l'expression génétique. La régression de crête offre un moyen de traiter cette complexité du modèle en réduisant le poids total de ces multiples fonctionnalités, comprimant ainsi la portée prédictive du modèle.

Immobilier

Une myriade de facteurs déterminent le prix de vente final d'une maison et nombre d'entre eux sont corrélés, comme le nombre de chambres et de salles de bains. Des fonctionnalités fortement corrélées conduisent à des coefficients de régression élevés et à un sur-ajustement sur les données d'entraînement. La régression de crête corrige cette forme de complexité de modèle en réduisant la pondération totale des fonctionnalités sur la valeur prédite finale du modèle.

Il ne s'agit là que de deux exemples dans la discipline plus large de la science des données. Mais comme l'illustrent ces deux exemples, vous pouvez utiliser la régression de crête de la manière la plus efficace dans les situations où vous avez plus de fonctionnalités de modèle que d'échantillons de données ou lorsque votre modèle a deux ou plusieurs fonctionnalités fortement corrélées.

Mixture of Experts | 12 décembre, épisode 85

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l’actualité et des dernières tendances dans le domaine de l’IA.

Regardez tous les épisodes de Mixture of Experts

Recherches récentes

Des recherches récentes explorent une variante modifiée de la régression Ridge qui permettrait d’exécuter la sélection des caractéristiques.¹⁸Cette forme modifiée de la régression Ridge utilise différents paramètres de régularisation sur chaque coefficient. Ainsi, il est possible de pénaliser individuellement les poids des caractéristiques, permettant la mise en œuvre potentielle de la sélection des caractéristiques par le biais de la régression Ridge.¹⁹

Libérez la puissance de l’IA générative et du ML

Découvrez comment intégrer en toute confiance l’IA générative et le machine learning dans votre entreprise.

Qu’est-ce que la régression Ridge ?

Auteurs

Qu’est-ce que la régression Ridge ?

Le problème : la multi-colinéarité

Fonctionnement de la régression Ridge : l’algorithme de régularisation

Régression Ridge et régression Lasso

Autres techniques de régularisation de régression

Les dernières tendances en matière d’IA, vues par des experts

Merci ! Vous êtes abonné(e).

Régression Ridge dans le machine learning

Complexité des modèles

Compromis biais-variance

Quelques cas d’utilisation

Décryptage de l’IA : Tour d’horizon hebdomadaire

Recherches récentes

Ressources