Accueil les sujets Dérive de modèle Qu’est-ce que la dérive du modèle ?
Découvrir la plateforme d’IA d’IBM S’abonner aux actualités de l’IA
Illustration par un collage de pictogrammes représentant des nuages, un diagramme circulaire, des pictogrammes URL de graphique

Publication : 18 janvier 2024
Contributeur : Jim Holdsworth

Qu’est-ce que la dérive du modèle ?

La dérive du modèle désigne la dégradation de la performance d’un modèle en raison d’un changement des données et des relations entre les variables d’entrée et de sortie. La dérive du modèle (ou model drift) peut avoir un impact négatif sur les performances du modèle, entraînant des prises de décision erronées et de mauvaises prédictions. 

Pour détecter et atténuer la dérive, les organisations peuvent surveiller et gérer les performances depuis leur plateforme de données et d'intelligence artificielle. Même les modèles d’IA les mieux entraînés et les moins biaisés peuvent « dériver » par rapport à leurs paramètres d’origine et produire des résultats indésirables une fois déployés s'ils ne sont pas suivis avec rigueur.

Si l’entraînement d’un modèle d’IA ne s’aligne pas sur les données entrantes, il ne peut pas les interpréter avec précision ou utiliser ces données réelles pour établir des prédictions précises. Si la dérive n’est pas détectée et atténuée rapidement, elle peut empirer et impacter davantage vos opérations. 

Les modèles basés sur des données historiques peuvent vite stagner, car, dans de nombreux cas, de nouveaux points de données (variations, modèles, tendances) absents de votre ensemble historique font leur apparition.

Pourquoi la gouvernance de l’IA est un impératif stratégique pour la mise à l’échelle de l’IA d’entreprise

Découvrez les obstacles à l’adoption de l’IA, en particulier le manque de solutions de gouvernance de l’IA et de gestion des risques.

Contenu connexe

Obtenir le guide sur les modèles de fondation

Les causes de dérive du modèle 

Tout comme le monde dans sa globalité, les données évoluent constamment. Les modèles utilisés pour donner un sens à tout cela doivent donc être mis à jour et révisés en continu. Voici trois types de dérives de modèle qui doivent être traités, chacun ayant une cause différente.

Dérive conceptuelle

La dérive conceptuelle se produit lorsqu'il y a un décalage entre les variables d'entrée et la variable cible : l'algorithme commence alors à fournir des réponses incorrectes, car les définitions ne sont plus valables. Cette dérive des variables indépendantes peut avoir lieu de façon :

Saisonnière

Quand la dérive conceptuelle survient et disparaît régulièrement, comme dans le cas des comportements d'achat influencés par la météo. Par exemple, la vente de sel et de dégivrant augmente normalement à la fin de l'automne et au début de l'hiver. Des ajustements géographiques doivent également être effectués pour tenir compte des chutes de neige attendues. 

Soudaine

Une tendance inattendue peut entraîner de nouveaux modèles d'achat. Par exemple, la médiatisation soudaine de ChatGPT a fait bondir la demande de matériel et de logiciels d'IA et la valeur boursière des entreprises axées sur l'IA. Un modèle de prévision entraîné avant ce buzz dans les médias ne pouvait pas prédire de tels résultats. Un autre exemple est l’arrivée de la pandémie de Covid-19, qui a également provoqué un changement soudain des comportements : la vente de jeux et d’équipements de sport a grimpé en flèche, tandis que les restaurants et les hôtels ont vu leur fréquentation chuter. 

 

Graduelle

Certaines dérives se produisent progressivement, ou à un rythme attendu. Par exemple, les spammeurs et les hackeurs optimisent leurs techniques au fil du temps pour s'adapter au niveau de sécurité accru des logiciels de protection et des filtres anti-spam. Toute IA conçue pour protéger les internautes dans la sphère numérique doit évoluer en continu ; un modèle statique sera vite inefficace. 

Dérive des données

On parle de dérive des données lorsque la distribution des données d’entrée a changé. Dans le commerce par exemple, le succès d'un produit peut être influencé par le lancement d'un nouveau produit ou par le retrait d'un produit concurrent. Ou si un site Web d'abord prisé par les jeunes finit aussi par être adopté par des personnes plus âgées, le modèle original basé sur les comportements d'utilisation des jeunes utilisateurs risque de ne pas être aussi performant auprès de cette nouvelle clientèle.

Modification des données en amont

Cela se produit lorsque le pipeline de données est modifié, par exemple si des données jusqu'alors exprimées en dollars passent en euros (ou de miles à km, de Fahrenheit à Celsius, etc.). Un tel changement déstabiliserait un modèle qui n’a pas été conçu pour tenir compte d'une modification de l'étiquetage des données.

Bonnes pratiques pour éviter la dérive du modèle

Afin que les organisations puissent détecter et corriger la dérive des modèles, elles doivent tenir compte des éléments suivants.

Automatiser la détection des dérives

La précision d’un modèle IA peut diminuer dans les jours suivant son déploiement, car les données de production divergent des données utilisées pour l'entraînement. Cela peut générer des prévisions erronées et créer des risques importants. Les organisations ont tout intérêt à utiliser un programme d'IA et des outils de surveillance qui détectent automatiquement lorsque la précision d'un modèle diminue (ou dérive) en dessous d'un seuil prédéfini. Ce programme de détection doit aussi être capable d'identifier les éléments à l'origine de ces dérives, ce qui permettrait de les ré-étiqueter et de les utiliser pour ré-entraîner le modèle, restaurant ainsi son pouvoir prédictif durant son exécution.

Il existe deux façons de mesurer la dérive. La première consiste à utiliser des mesures statistiques. Cette méthode est souvent plus facile à mettre en œuvre, car la plupart des indicateurs sont généralement déjà utilisés au sein de votre entreprise. La seconde implique de mesurer la similarité entre un point ou des groupes de points par rapport à la ligne de base de référence au sein d'un modèle.

Automatiser les tests de modèle

Les organisations devraient tester périodiquement leurs modèles d’IA tout au long de leur cycle de vie. Dans l’idéal, ces tests comprennent :

  1. La validation des modèles en préproduction avec des tests pour détecter les biais et les dérives, puis la génération de rapports de test.
  2. Le transfert des configurations tests réussies en pré-déploiement vers la version déployée du modèle et la poursuite de tests automatisés continus.
  3. La synchronisation des informations sur les modèles, les données et les résultats des tests avec les systèmes d'enregistrement.
  4. Une automatisation capable de fournir des notifications cohérentes et fiables et de donner aux équipes plus de temps à consacrer au développement de modèles (plutôt qu'à la surveillance).
Adopter un environnement de gestion unifié

Selon une étude Forrester Total Economic Impact, « en créant, en exécutant et en gérant des modèles dans un environnement de données et d’IA unifié, [les organisations] peuvent maintenir l'équité, l'explicabilité et la conformité de leurs modèles d’IA. Cette approche d'IA de bout en bout permet également à une organisation de détecter et d'aider à corriger la dérive et le biais des modèles, et de gérer les risques inhérents lorsqu'un modèle d'IA est en production. »  

L'une des meilleures pratiques consiste à gérer tous les modèles à partir d'un tableau de bord centralisé. Une approche intégrée peut aider votre organisation à suivre les indicateurs en continu et à alerter les équipes en cas de dérive de la précision et de la cohérence des données lors du développement, de la validation et du déploiement. Une vue globale et centralisée peut aider les entreprises à éliminer les silos et à générer plus de transparence concernant la traçabilité des données.

Assurer une surveillance permanente

Détectez les scénarios de dérive et leur ampleur grâce à un modèle d’IA qui compare les données de production et d’entraînement et les prédictions des modèles en temps réel. De cette façon, les dérives peuvent être décelées rapidement et le processus de ré-entraînement peut être lancé immédiatement. Cette détection est itérative, tout comme les opérations de machine learning (MLOps). 

Analyser l'origine du problème

L'analyse basée sur le temps est utile pour voir comment la dérive a évolué et quand elle s'est produite. Par exemple, si les contrôles sont effectués chaque semaine, cela montrera comment la dérive a évolué chaque jour. L’analyse de la chronologie peut également être utile pour déterminer si la dérive a été progressive ou soudaine.

Ré-entraîner les modèles

Utilisez pour cela un nouvel ensemble de données d’entraînement contenant des échantillons plus récents et plus pertinents. L’objectif est de pouvoir remettre vos grands modèles de langage (LLM) en production rapidement et correctement. Si le ré-entraînement du modèle ne résout pas le problème, un nouveau modèle peut être nécessaire.

Mettre à jour les modèles de ML en temps réel

Au lieu d'entraîner un modèle à l'aide de données par lots, les organisations peuvent pratiquer « l'apprentissage en ligne » en intégrant dans leurs modèles de machine learning (ML) les dernières données du monde réel dès qu'elles sont disponibles. 

Vérifier les données d’entrée

Un modèle peut avoir tendance à dériver lorsque les données utilisées pour l’entraîner sont très différentes des données de production réelles qui seront utilisées. Par exemple, dans le domaine médical, si des scanners de haute résolution sont utilisés dans le cadre de l’entraînement, mais que seuls des scanners basse résolution sont disponibles sur le terrain, les résultats seront incorrect

Solutions connexes
IBM watsonx.governance 

Accélérez la mise en place de workflows d'IA responsables, transparents et explicables pour les modèles d'IA générative et de machine learning.

Découvrez watsonx.governance

IBM Watson Studio 

Suivez les performances du modèle. Recevez des alertes en cas de dérive de la précision et de la cohérence des données du modèle.

Découvrir IBM Watson Studio

Ressources Donnez un nouvel élan à votre organisation grâce à des données fiables

Des stratégies de gouvernance des données qui vous donneront un avantage concurrentiel.

Quelle est votre stratégie en matière de données ?

Des CDO et des responsables de la science des données vous expliquent comment élaborer une stratégie de données fiable qui accélère la croissance.

Qualité des données et performance de l’IA en trois étapes

Découvrez l’avis d’experts sur la façon dont votre organisation peut améliorer la fiabilité, la qualité des données et les performances de l’IA.

Passez à l’étape suivante

Accélérez la mise en place de workflows d’IA responsables, transparents et explicables tout au long du cycle de vie pour les modèles d’IA générative et de machine learning. Dirigez, gérez et surveillez les activités d’IA de votre organisation pour mieux vous adapter aux réglementations de plus en plus nombreuses en matière d’IA, et détecter et atténuer les risques plus efficacement.

Découvrez watsonx.governance Réserver une démo live