Un pipeline de machine learning est une série d’étapes interconnectées de traitement et de modélisation des données conçues pour automatiser, normaliser et rationaliser le processus de création, d’entraînement, d’évaluation et de déploiement des modèles de machine learning.
Le pipeline de machine learning est un composant crucial du développement et de la mise en production des systèmes de machine learning, qui permet aux data scientists et aux ingénieurs de données de gérer la complexité du processus de machine learning de bout en bout et de développer des solutions précises et évolutives pour un large éventail d’applications.
Les pipelines de machine learning présentent de nombreux avantages.
La technologie de machine learning progresse à grands pas, mais nous pouvons isoler certaines étapes générales du processus de création et de déploiement de modèles de machine learning et d’apprentissage profond.
Les cycles de vie du machine learning peuvent varier en complexité et peuvent impliquer des étapes supplémentaires selon le cas d’utilisation, par exemple l’optimisation des hyperparamètres, la validation croisée et la sélection des caractéristiques. L’objectif d’un pipeline de machine learning est d’automatiser et de standardiser ces processus, afin de faciliter le développement et la maintenance des modèles de ML pour diverses applications.
L’histoire des pipelines de machine learning est étroitement liée à l’évolution des domaines du machine learning et de la science des données. Si le concept de workflows de traitement des données est antérieur au machine learning, la formalisation et l’utilisation généralisée de ces pipelines tels que nous les connaissons aujourd’hui se sont développées plus récemment.
Les premiers workflows de traitement des données (avant les années 2000) : avant l’adoption généralisée du machine learning, les workflows de traitement des données sont utilisés pour des tâches telles que le nettoyage, la transformation et l’analyse des données. Ces workflows sont généralement manuels et impliquent l’écriture de scripts ou l’utilisation d’outils de type tableurs. Cependant, le machine learning n’est pas une composante centrale de ces processus à cette époque.
L’émergence du machine learning (années 2000) : le machine learning gagne en popularité au début des années 2000 grâce aux améliorations des algorithmes, de la puissance de calcul et de la disponibilité de grands jeux de données. Les chercheurs et les data scientists commencent à appliquer le machine learning à divers domaines, entraînant un besoin croissant de workflows systématiques et automatisés.
L’essor de la science des données (de la fin des années 2000 au début des années 2010) : le terme « science des données » devient un terme populaire pour désigner un domaine multidisciplinaire combinant statistiques, analyse des données et machine learning. Cette époque voit naître la formalisation des workflows de science des données, notamment le prétraitement des données, ainsi que la sélection et l’évaluation des modèles, qui font désormais partie intégrante des pipelines de machine learning.
Le développement de bibliothèques et d’outils de machine learning (années 2010) : les années 2010 laissent place au développement de bibliothèques et d’outils de machine learning qui facilitent la création de pipelines. Des bibliothèques comme scikit-learn (pour Python) et caret (pour R) proposent des API standardisées pour la création et l’évaluation des modèles de machine learning, facilitant ainsi la construction de pipelines.
L’essor de l’AutoML (années 2010) : des outils et des plateformes de machine learning automatisé (AutoML) apparaissent. Ils visent à automatiser le processus de création des pipelines de machine learning. Ces outils automatisent généralement des tâches telles que l’ajustement des hyperparamètres, la sélection des caractéristiques et la sélection des modèles, rendant le machine learning plus accessible aux non-spécialistes grâce à des visualisations et à des tutoriels. Apache Airflow est un exemple de plateforme de gestion de workflows open source pouvant être utilisée pour créer des pipelines de données.
L’intégration au DevOps (années 2010) : Les pipelines de machine learning commencent à être intégrés aux pratiques DevOps pour permettre l’intégration et le déploiement continus (CI/CD) des modèles de machine learning. Cette intégration met en avant les besoins en matière de reproductibilité, de contrôle des versions et de surveillance dans les pipelines de ML. C’est ce que l’on appelle les opérations de machine learning ou MLOps. Elles permettent aux équipes de science des données de gérer efficacement la complexité de l’orchestration du ML. Dans un déploiement en temps réel, le pipeline répond à une requête dans les millisecondes qui suivent.
Apprenez des concepts fondamentaux et développez vos compétences grâce à des ateliers pratiques, à des cours, à des projets guidés, à des essais et à d’autres ressources.
Découvrez comment intégrer en toute confiance l’IA générative et le machine learning dans votre entreprise.
Vous voulez obtenir un meilleur retour sur vos investissements dans l’IA ? Découvrez comment la mise à l’échelle de l’IA générative dans des domaines clés favorise le changement en aidant vos meilleurs éléments à créer et à fournir de nouvelles solutions innovantes.
Découvrez comment choisir le modèle de fondation d’IA le mieux adapté à votre cas d’utilisation.
Entraînez, validez, réglez et déployez une IA générative, des modèles de fondation et des capacités de machine learning avec IBM watsonx.ai, un studio d’entreprise nouvelle génération pour les générateurs d’IA. Créez des applications d’IA en peu de temps et avec moins de données.
Mettez l’IA au service de votre entreprise en vous appuyant sur l’expertise de pointe d’IBM dans le domaine de l’IA et sur son portefeuille de solutions.
Réinventez les workflows et les opérations critiques en ajoutant l’IA pour optimiser les expériences, la prise de décision et la valeur métier en temps réel.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com