Qu’est-ce qu’un pipeline de machine learning ?

Un pipeline de machine learning est une série d’étapes interconnectées de traitement et de modélisation des données conçues pour automatiser, normaliser et rationaliser le processus de création, d’entraînement, d’évaluation et de déploiement des modèles de machine learning.

Le pipeline de machine learning est un composant crucial du développement et de la mise en production des systèmes de machine learning, qui permet aux data scientists et aux ingénieurs de données de gérer la complexité du processus de machine learning de bout en bout et de développer des solutions précises et évolutives pour un large éventail d’applications.

IBM nommé leader par IDC

Découvrez pourquoi IBM a été nommé leader dans le rapport IDC MarketScape : Worldwide AI Governance Platforms 2023.

Contenu connexe

Obtenir l’e-book sur l’IA générative

Avantages des pipelines de machine learning

Les pipelines de machine learning présentent de nombreux avantages.

Modularisation : Les pipelines permettent de décomposer le processus de machine learning en étapes modulaires bien définies. Chaque étape peut être développée, testée et optimisée indépendamment, ce qui facilite la gestion et la maintenance du workflow.
Reproductibilité : Les pipelines de machine learning facilitent la reproduction des expériences. En définissant la séquence des étapes et leurs paramètres dans un pipeline, vous pouvez recréer l’intégralité du processus exactement, ce qui garantit des résultats cohérents. Si une étape échoue ou si les performances d’un modèle se détériorent, le pipeline peut être configuré pour envoyer des alertes ou appliquer des mesures correctives.
Efficacité : Les pipelines automatisent de nombreuses tâches de routine, comme le prétraitement des données, l'ingénierie des caractéristiques et l’évaluation des modèles. Cette efficacité permet de gagner beaucoup de temps et de réduire le risque d’erreurs.
Évolutivité : Les pipelines peuvent être facilement redimensionnés pour gérer de grands jeux de données ou des workflows complexes. Quand les données et les modèles deviennent plus complexes, vous pouvez ajuster le pipeline sans avoir à tout reconfigurer de zéro, ce qui pourrait prendre du temps.
Expérimentation : Vous pouvez expérimenter plusieurs techniques de prétraitement des données, sélections de caractéristiques et modèles en modifiant les étapes individuelles du pipeline. Cette flexibilité accélère les itérations et les optimisations.
Déploiement : Les pipelines facilitent le déploiement de modèles de machine learning en production. Une fois que vous avez établi un pipeline bien défini pour l’entraînement et l’évaluation des modèles, vous pouvez facilement l’intégrer à votre application ou système.
Collaboration : Les pipelines facilitent la collaboration entre les équipes de data scientists et d’ingénieurs. Puisque le workflow est structuré et documenté, il est plus facile pour les membres de l’équipe de comprendre le projet et d’y contribuer.
Contrôle des versions et documentation : Vous pouvez utiliser des systèmes de contrôle des versions pour suivre les modifications apportées au code et à la configuration de votre pipeline. Vous avez ainsi la possibilité de revenir aux versions précédentes si nécessaire. Un pipeline bien structuré permet de mieux documenter chaque étape.

Les étapes d’un pipeline de machine learning

La technologie de machine learning progresse à grands pas, mais nous pouvons isoler certaines étapes générales du processus de création et de déploiement de modèles de machine learning et d’apprentissage profond.

Collecte de données : Lors de cette étape initiale, de nouvelles données sont collectées à partir de diverses sources, par exemple des bases de données, des API ou des fichiers. Ce processus d’ingestion implique souvent des données brutes qui peuvent nécessiter un prétraitement pour être utiles.
Prétraitement des données : Cette étape consiste à nettoyer, transformer et préparer les données d’entrée pour la modélisation. Les étapes de prétraitement courantes comprennent la gestion des valeurs manquantes, l’encodage des variables catégorielles, la mise à l’échelle des caractéristiques numériques et la répartition des données en jeux d’entraînement et de test.
Ingénierie des caractéristiques : L’ingénierie des caractéristiques correspond à la création de nouvelles caractéristiques ou à la sélection de caractéristiques pertinentes à partir des données. Ce processus peut améliorer les prédictions du modèle. Cette étape nécessite souvent des connaissances dans le domaine, ainsi que de la créativité.
Sélection des modèles : Cette étape consiste à choisir le ou les algorithmes de machine learning en fonction du type de problème (par exemple, classification, régression), des caractéristiques des données et des exigences en matière de performances. Vous pouvez également envisager d’ajuster les hyperparamètres à cette étape.
Entraînement des modèles : Le ou les modèles sélectionnés sont entraînés sur le jeu de données d’apprentissage avec le ou les algorithmes choisis. Lors de cette étape, les modèles apprennent les relations et les schémas sous-jacents dans les données d’apprentissage. Il est également possible d’avoir recours à des modèles pré-entraînés, plutôt que d’entraîner un nouveau modèle.
Évaluation des modèles : Après l’entraînement, les performances du modèle sont évaluées à l’aide d’un jeu de données de test distinct ou par validation croisée. Les indicateurs d’évaluation courants dépendent du problème spécifique, mais ils peuvent inclure l’exactitude, la précision, le rappel, le F1-score, l’erreur quadratique moyenne et d’autres.
Déploiement des modèles : Après qu’un modèle satisfaisant est développé et évalué, il peut être déployé dans un environnement de production où il peut faire des prédictions sur de nouvelles données inédites. Le déploiement peut impliquer la création d’API et l’intégration à d’autres systèmes.
Surveillance et maintenance: Après le déploiement, il est essentiel de surveiller en permanence les performances du modèle et de le réentraîner si nécessaire pour qu’il s’adapte à l’évolution des schémas de données. Cette étape garantit la précision et la fiabilité du modèle dans un environnement réel.

Les cycles de vie du machine learning peuvent varier en complexité et peuvent impliquer des étapes supplémentaires selon le cas d’utilisation, par exemple l’optimisation des hyperparamètres, la validation croisée et la sélection des caractéristiques. L’objectif d’un pipeline de machine learning est d’automatiser et de standardiser ces processus, afin de faciliter le développement et la maintenance des modèles de ML pour diverses applications.

Histoire des pipelines de machine learning

L’histoire des pipelines de machine learning est étroitement liée à l’évolution des domaines du machine learning et de la science des données. Si le concept de workflows de traitement des données est antérieur au machine learning, la formalisation et l’utilisation généralisée de ces pipelines tels que nous les connaissons aujourd’hui se sont développées plus récemment.

Les premiers workflows de traitement des données (avant les années 2000) : Avant l’adoption généralisée du machine learning, les workflows de traitement des données sont utilisés pour des tâches telles que le nettoyage, la transformation et l’analyse des données. Ces workflows sont généralement manuels et impliquent l’écriture de scripts ou l’utilisation d’outils de type tableurs. Cependant, le machine learning n’est pas une composante centrale de ces processus à cette époque.

L’émergence du machine learning (années 2000) : Le machine learning gagne en popularité au début des années 2000 grâce aux améliorations des algorithmes, de la puissance de calcul et de la disponibilité de grands jeux de données. Les chercheurs et les data scientists commencent à appliquer le machine learning à divers domaines, entraînant un besoin croissant de workflows systématiques et automatisés.

L’essor de la science des données (de la fin des années 2000 au début des années 2010) : Le terme « science des données » devient un terme populaire pour désigner un domaine multidisciplinaire combinant statistiques, analyse des données et machine learning. Cette époque voit naître la formalisation des workflows de science des données, notamment le prétraitement des données, ainsi que la sélection et l’évaluation des modèles, qui font désormais partie intégrante des pipelines de machine learning.

Le développement de bibliothèques et d’outils de machine learning (années 2010) : Les années 2010 laissent place au développement de bibliothèques et d’outils de machine learning qui facilitent la création de pipelines. Des bibliothèques comme scikit-learn (pour Python) et caret (pour R) proposent des API standardisées pour la création et l’évaluation des modèles de machine learning, facilitant ainsi la construction de pipelines.

L’essor de l’AutoML (années 2010) : Des outils et des plateformes de machine learning automatisé (AutoML) apparaissent. Ils visent à automatiser le processus de création des pipelines de machine learning. Ces outils automatisent généralement des tâches telles que l’ajustement des hyperparamètres, la sélection des caractéristiques et la sélection des modèles, rendant le machine learning plus accessible aux non-spécialistes grâce à des visualisations et à des tutoriels. Apache Airflow est un exemple de plateforme de gestion de workflows open source pouvant être utilisée pour créer des pipelines de données.

L’intégration avec les DevOps (années 2010) : Les pipelines de machine learning commencent à être intégrés aux pratiques DevOps pour permettre l’intégration et le déploiement continus (CI/CD) des modèles de machine learning. Cette intégration met en avant les besoins en matière de reproductibilité, de contrôle des versions et de surveillance dans les pipelines de ML. C’est ce que l’on appelle les opérations de machine learning ou MLOps. Elles permettent aux équipes de science des données de gérer efficacement la complexité de l’orchestration du ML. Dans un déploiement en temps réel, le pipeline répond à une requête dans les millisecondes qui suivent.

Solutions connexes

IBM watsonx

Décuplez la puissance de l’IA avec notre plateforme d’IA et de données nouvelle génération. IBM Watsonx est un portefeuille d’applications, de solutions et d’outils prêts à l’emploi conçus pour réduire les coûts et les obstacles liés à l’adoption de l’IA tout en optimisant les résultats de l’IA et en favorisant son utilisation responsable.

Découvrir watsonx

Solutions d’IA

Opérationnalisez l’IA dans toute votre entreprise pour offrir des avantages de manière rapide et éthique. Notre vaste portefeuille de produits d’IA et de solutions d’analytique professionnels est conçu pour réduire les obstacles à l’adoption de l’IA et créer le bon socle de données, tout en optimisant les résultats et en favorisant une utilisation responsable.

Découvrir les solutions d’IA d’IBM

Services de conseil en IA

Repensez votre façon d’exploiter l’IA : pour votre sérénité, notre équipe internationale diverse de plus de 20 000 experts en IA vous accompagnera dans la création et la mise à l’échelle de vos projets d’IA et d’automatisation. Alliant rapidité, éthique et fiabilité, vous vous appuierez sur notre technologie IBM watsonx et sur un écosystème de partenaires ouvert, pour assurer la livraison du modèle d’IA de votre choix, quel que soit le cloud utilisé.

Découvrez les services de conseil en IA proposés par IBM

Ressources sur les modèles IA

IBM Research : Intelligence artificielle

Explorez notre centre de recherche IA centralisé, des principes de base aux recherches émergentes en passant par les questions et avancées majeures.

Kit d’outils de conception de pipelines de machine learning

Nous avons créé le kit d’outils AutoMLPipeline (AMLP). Il facilite la création et l’évaluation des structures de pipelines de machine learning complexes à l’aide d’expressions simples.

Les MLOps et l’évolution de la science des données

Les MLOps, c’est la prochaine étape de l’analyse des données et de l’apprentissage profond. Elles optimisent l’évolutivité du ML dans les applications du monde réel avec des algorithmes qui améliorent les performances et la reproductibilité des modèles.

Passez à l’étape suivante

Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio professionnel de nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.

Découvrir watsonx.ai

Réserver une démo en direct