My IBM Se connecter S’abonner

Qu’est-ce qu’un pipeline de machine learning ?

Qu’est-ce qu’un pipeline de machine learning ?

Un pipeline de machine learning est une série d’étapes interconnectées de traitement et de modélisation des données conçues pour automatiser, normaliser et rationaliser le processus de création, d’entraînement, d’évaluation et de déploiement des modèles de machine learning.

Le pipeline de machine learning est un composant crucial du développement et de la mise en production des systèmes de machine learning, qui permet aux data scientists et aux ingénieurs de données de gérer la complexité du processus de machine learning de bout en bout et de développer des solutions précises et évolutives pour un large éventail d’applications.

Design 3D de balles roulant sur une piste

Les dernières actualités et informations en matière d’IA 


La newsletter hebdomadaire Think vous apporte toute l’actualité sur l’IA, le cloud et bien d’autres sujets.

Avantages des pipelines de machine learning

Les pipelines de machine learning présentent de nombreux avantages.

  • Modularisation : Les pipelines permettent de décomposer le processus de machine learning en étapes modulaires bien définies. Chaque étape peut être développée, testée et optimisée indépendamment, ce qui facilite la gestion et la maintenance du workflow.

  • Reproductibilité : Les pipelines de machine learning facilitent la reproduction des expériences. En définissant la séquence des étapes et leurs paramètres dans un pipeline, vous pouvez recréer l’intégralité du processus exactement, ce qui garantit des résultats cohérents. Si une étape échoue ou si les performances d’un modèle se détériorent, le pipeline peut être configuré pour envoyer des alertes ou appliquer des mesures correctives.

  • Efficacité : Les pipelines automatisent de nombreuses tâches de routine, comme le prétraitement des données, l'ingénierie des caractéristiques et l’évaluation des modèles. Cette efficacité permet de gagner beaucoup de temps et de réduire le risque d’erreurs.

  • Évolutivité : Les pipelines peuvent être facilement redimensionnés pour gérer de grands jeux de données ou des workflows complexes. Quand les données et les modèles deviennent plus complexes, vous pouvez ajuster le pipeline sans avoir à tout reconfigurer de zéro, ce qui pourrait prendre du temps.

  • Expérimentation : Vous pouvez expérimenter plusieurs techniques de prétraitement des données, sélections de caractéristiques et modèles en modifiant les étapes individuelles du pipeline. Cette flexibilité accélère les itérations et les optimisations.

  • Déploiement : Les pipelines facilitent le déploiement de modèles de machine learning en production. Une fois que vous avez établi un pipeline bien défini pour l’entraînement et l’évaluation des modèles, vous pouvez facilement l’intégrer à votre application ou système.

  • Collaboration : Les pipelines facilitent la collaboration entre les équipes de data scientists et d’ingénieurs. Puisque le workflow est structuré et documenté, il est plus facile pour les membres de l’équipe de comprendre le projet et d’y contribuer.

  • Contrôle des versions et documentation : Vous pouvez utiliser des systèmes de contrôle des versions pour suivre les modifications apportées au code et à la configuration de votre pipeline. Vous avez ainsi la possibilité de revenir aux versions précédentes si nécessaire.Un pipeline bien structuré permet de mieux documenter chaque étape.
Groupe d’experts | Podcast

Décryptage de l’IA : Tour d’horizon hebdomadaire

Rejoignez notre panel d’ingénieurs, de chercheurs, de chefs de produits et autres spécialistes de premier plan pour connaître l’essentiel de l'actualité et des dernières tendances dans le domaine de l’IA.

Les étapes d’un pipeline de machine learning

La technologie de machine learning progresse à grands pas, mais nous pouvons isoler certaines étapes générales du processus de création et de déploiement de modèles de machine learning et d’apprentissage profond.

  1. Collecte de données : Lors de cette étape initiale, de nouvelles données sont collectées à partir de diverses sources, par exemple des bases de données, des API ou des fichiers. Ce processus d’ingestion implique souvent des données brutes qui peuvent nécessiter un prétraitement pour être utiles.

  2. Prétraitement des données : Cette étape consiste à nettoyer, transformer et préparer les données d’entrée pour la modélisation. Les étapes de prétraitement courantes comprennent la gestion des valeurs manquantes, l’encodage des variables catégorielles, la mise à l’échelle des caractéristiques numériques et la répartition des données en jeux d’entraînement et de test.

  3. Ingénierie des caractéristiques : L’ingénierie des caractéristiques correspond à la création de nouvelles caractéristiques ou à la sélection de caractéristiques pertinentes à partir des données. Ce processus peut améliorer les prédictions du modèle. Cette étape nécessite souvent des connaissances dans le domaine, ainsi que de la créativité.

  4. Sélection des modèles : Cette étape consiste à choisir le ou les algorithmes de machine learning en fonction du type de problème (par exemple, classification, régression), des caractéristiques des données et des exigences en matière de performances. Vous pouvez également envisager d’ajuster les hyperparamètres à cette étape.

  5. Entraînement des modèles : Le ou les modèles sélectionnés sont entraînés sur le jeu de données d’apprentissage avec le ou les algorithmes choisis. Lors de cette étape, les modèles apprennent les relations et les schémas sous-jacents dans les données d’apprentissage. Il est également possible d’avoir recours à des modèles pré-entraînés, plutôt que d’entraîner un nouveau modèle.

  6. Évaluation des modèles : Après l’entraînement, les performances du modèle sont évaluées à l’aide d’un jeu de données de test distinct ou par validation croisée. Les indicateurs d’évaluation courants dépendent du problème spécifique, mais ils peuvent inclure l’exactitude, la précision, le rappel, le score F1, l’erreur quadratique moyenne et d’autres.

  7. Déploiement des modèles : Après qu’un modèle satisfaisant est développé et évalué, il peut être déployé dans un environnement de production où il peut faire des prédictions sur de nouvelles données inédites. Le déploiement peut impliquer la création d’API et l’intégration à d’autres systèmes.

  8. Surveillance et maintenance : Après le déploiement, il est essentiel de surveiller en permanence les performances du modèle et de le réentraîner si nécessaire pour qu’il s’adapte à l’évolution des schémas dans les données. Cette étape garantit la précision et la fiabilité du modèle dans un environnement réel.

Les cycles de vie du machine learning peuvent varier en complexité et peuvent impliquer des étapes supplémentaires selon le cas d’utilisation, par exemple l’optimisation des hyperparamètres, la validation croisée et la sélection des caractéristiques. L’objectif d’un pipeline de machine learning est d’automatiser et de standardiser ces processus, afin de faciliter le développement et la maintenance des modèles de ML pour diverses applications.

Histoire des pipelines de machine learning

L’histoire des pipelines de machine learning est étroitement liée à l’évolution des domaines du machine learning et de la science des données. Si le concept de workflows de traitement des données est antérieur au machine learning, la formalisation et l’utilisation généralisée de ces pipelines tels que nous les connaissons aujourd’hui se sont développées plus récemment.

Les premiers workflows de traitement des données (avant les années 2000) : avant l’adoption généralisée du machine learning, les workflows de traitement des données sont utilisés pour des tâches telles que le nettoyage, la transformation et l’analyse des données. Ces workflows sont généralement manuels et impliquent l’écriture de scripts ou l’utilisation d’outils de type tableurs. Cependant, le machine learning n’est pas une composante centrale de ces processus à cette époque.

L’émergence du machine learning (années 2000) : le machine learning gagne en popularité au début des années 2000 grâce aux améliorations des algorithmes, de la puissance de calcul et de la disponibilité de grands jeux de données. Les chercheurs et les data scientists commencent à appliquer le machine learning à divers domaines, entraînant un besoin croissant de workflows systématiques et automatisés.

L’essor de la science des données (de la fin des années 2000 au début des années 2010) : le terme « science des données » devient un terme populaire pour désigner un domaine multidisciplinaire combinant statistiques, analyse des données et machine learning. Cette époque voit naître la formalisation des workflows de science des données, notamment le prétraitement des données, ainsi que la sélection et l’évaluation des modèles, qui font désormais partie intégrante des pipelines de machine learning.

Le développement de bibliothèques et d’outils de machine learning (années 2010) : les années 2010 laissent place au développement de bibliothèques et d’outils de machine learning qui facilitent la création de pipelines. Des bibliothèques comme scikit-learn (pour Python) et caret (pour R) proposent des API standardisées pour la création et l’évaluation des modèles de machine learning, facilitant ainsi la construction de pipelines.

L’essor de l’AutoML (années 2010) : des outils et des plateformes de machine learning automatisé (AutoML) apparaissent. Ils visent à automatiser le processus de création des pipelines de machine learning. Ces outils automatisent généralement des tâches telles que l’ajustement des hyperparamètres, la sélection des caractéristiques et la sélection des modèles, rendant le machine learning plus accessible aux non-spécialistes grâce à des visualisations et à des tutoriels. Apache Airflow est un exemple de plateforme de gestion de workflows open source pouvant être utilisée pour créer des pipelines de données.

L’intégration au DevOps (années 2010) : Les pipelines de machine learning commencent à être intégrés aux pratiques DevOps pour permettre l’intégration et le déploiement continus (CI/CD) des modèles de machine learning. Cette intégration met en avant les besoins en matière de reproductibilité, de contrôle des versions et de surveillance dans les pipelines de ML. C’est ce que l’on appelle les opérations de machine learning ou MLOps. Elles permettent aux équipes de science des données de gérer efficacement la complexité de l’orchestration du ML. Dans un déploiement en temps réel, le pipeline répond à une requête dans les millisecondes qui suivent.

Solutions connexes

Solutions connexes

IBM watsonx.ai

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai
Solutions d’intelligence artificielle

Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.

Découvrir les solutions d’IA
Conseils et services en matière d’IA

Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.

Découvrir les services d’IA
Passez à l’étape suivante

Bénéficiez d’un accès centralisé aux fonctionnalités couvrant le cycle de développement de l’IA. Produisez des solutions IA puissantes offrant des interfaces conviviales, des workflows et un accès à des API et SDK conformes aux normes du secteur.

Découvrir watsonx.ai Réserver une démo en direct