Un pipeline de données est une méthode selon laquelle des données brutes sont ingérées à partir de diverses sources de données, transformées, puis transférées vers un magasin de données tel qu’un data lake ou un entrepôt de données, à des fins d’analyse.
Avant d’être injectées dans un référentiel de données, les données subissent généralement un certain traitement. Il s’agit notamment de transformations telles que le filtrage, le masquage et l’agrégation, qui garantissent une standardisation et une intégration des données toutes deux appropriées. Cela est particulièrement important lorsque la destination du jeu de données est une base de données relationnelle. Ce type de référentiel de données comporte un schéma défini qui nécessite un alignement, c’est-à-dire une mise en correspondance des colonnes et des types de données, afin de mettre à jour les données existantes avec de nouvelles données.
Comme leur nom l’indique, les pipelines de données servent de « tuyaux » aux projets de science des données ou aux tableaux de bord de business intelligence. Les données peuvent provenir d’une grande variété d’endroits (API, bases de données SQL et NoSQL, fichiers, etc.) mais malheureusement, ces données ne sont généralement pas prêtes à être utilisées immédiatement. Lors du sourcing, la traçabilité des données est suivie pour documenter la relation entre les données présentes dans diverses applications d’entreprise et informatiques. Il s’agit de déterminer, par exemple, l’endroit où se trouvent actuellement les données et la manière dont elles sont stockées dans un environnement (sur site, dans un data lake ou dans un entrepôt de données).
Les tâches de préparation des données reposent généralement sur les épaules des data scientists ou des ingénieurs de données, qui structurent les données pour répondre aux besoins des cas d’utilisation métier et traitent d’énormes quantités de données. Le type de traitement requis par un pipeline de données est généralement déterminé en associant analyse exploratoire des données et définition des exigences métier. Après avoir été correctement filtrées, fusionnées et synthétisées, les données peuvent être stockées et extraites pour être utilisées. Un pipeline de données bien organisé constitue la base de divers projets axés sur les données, comme l’analyse exploratoire de données, la visualisation de données et les tâches de machine learning.