L’ELT (extraction, chargement, transformation) est un autre type de processus d’intégration de données, similaire à son homologue l’ETL (extraction, transformation, chargement). Ce processus déplace les données brutes d’un système source vers une ressource de destination, telle qu’un entrepôt de données.
Bien que similaire à l’ETL, l’ELT est une approche fondamentalement différente du prétraitement des données, qui n’a été adoptée que plus récemment avec la transition vers les environnements cloud.
Utilisez ce cadre de sélection de modèles pour choisir le modèle le plus approprié tout en équilibrant vos exigences de performance avec les coûts, les risques et les besoins de déploiement.
Obtenir l’eBook sur les entrepôts de données pour l’IA
L’ELT comprend trois étapes principales : extraction, chargement et transformation. Chacune de ces étapes est détaillée ci-dessous.
Lors de l’extraction, les données sont copiées ou exportées depuis les emplacements sources vers une zone de préparation. Le jeu de données peut être constitué de nombreux types de données provenant de n’importe quelle source structurée ou non structurée ou presque, y compris, mais sans s’y limiter :
Cela dit, ce sont généralement des données non structurées qui sont utilisées.
Lors de cette étape, les données transformées sont déplacées de la zone de préparation vers une zone de stockage, telle qu’un entrepôt de données ou un data lake.
Pour la plupart des organisations, le processus de chargement des données est automatisé, bien défini, continu et géré par lots. En général, l’ELT a lieu pendant les heures de bureau, lorsque le trafic sur les systèmes sources et l’entrepôt de données est à son maximum et que les consommateurs attendent d’utiliser les données à des fins d’analyse ou autre.
À ce stade, une approche de schéma en écriture est employée, qui applique le schéma aux données avec SQL, ou transforme les données, avant l’analyse. Cette étape peut impliquer les tâches suivantes :
Il est possible de confondre l’ELT avec son homologue à l’acronyme quasi identique. Cependant, il existe plusieurs différences distinctes entre l’ELT et l’ETL(extraction, transformation, chargement). Il s’agit d’un processus d’intégration des données qui combine les données de plusieurs sources dans un seul magasin cohérent chargé dans un entrepôt de données ou un autre système cible. Les outils ETL traditionnels ont été conçus pour créer des entrepôts de données destinés à venir à l’appui des applications de Business Intelligence (BI) et d’intelligence artificielle (IA).
La différence évidente, c’est que le processus ELT exécute la fonction de chargement avant la fonction de transformation, ce qui revient à inverser les deuxième et troisième étapes du processus ETL. L’ELT copie ou exporte les données à partir des emplacements sources, mais au lieu de les déplacer dans une zone de préparation, il charge les données brutes directement dans le magasin de données cible pour les transformer en fonction des besoins. L’ELT ne transforme aucune donnée en transit.
Cependant, l’ordre des étapes n’est pas la seule différence. Dans l’ELT, le magasin de données cible peut être un entrepôt de données, mais le plus souvent, il s’agit d’un data lake, un vaste magasin central conçu pour stocker des données structurées et non structurées à très grande échelle.
Les data lakes sont gérés à l’aide d’une plateforme de big data (comme Apache Hadoop) ou d’un système de gestion de données NoSQL distribué. Ils peuvent soutenir la business intelligence, mais le plus souvent, ils sont créés pour soutenir l’intelligence artificielle, le machine learning, l’analyse prédictive et les applications pilotées par les données en temps réel et les flux d’événements.
Il existe également d’autres différences entre l’ETL et l’ELT. Par exemple, comme il transforme les données avant de les transférer vers le référentiel central, l’ETL peut faciliter la conformité en matière de confidentialité des données, voire la rendre plus systématique, que l’ELT (par exemple, si les analystes ne transforment pas les données sensibles avant leur utilisation, elles pourraient apparaître sans masquage dans le data lake). Cependant, les data scientists préféreront peut-être l’ELT, qui leur permet de jouer dans un « bac à sable » de données brutes et d’effectuer une transformation de données adaptée à des applications spécifiques. Mais, dans la plupart des cas, le choix entre l’ETL et l’ELT dépendra du choix entre les ressources disponibles et les besoins de l’entreprise.
L’ELT offre plusieurs avantages aux utilisateurs qui intègrent le processus dans leurs workflows. Jetons un coup d’œil à certains de ses avantages notables :
Lorsque de grandes quantités de données de streaming sont générées, l’ELT permet de les charger immédiatement et les transforme une fois à leur destination. Cela permet d’éviter les ralentissements qui se produisent souvent si la transformation intervient avant la fonction de chargement, comme dans l’ETL. Souvent, des décisions dépendent de ces données, et les retards sont inacceptables. Le marché boursier, par exemple, génère de grandes quantités de données consommées en temps réel. Dans de tels scénarios, l’ELT est la solution de choix, car la transformation se produit une fois les données arrivées à destination.
Comme les données sont transformées lorsqu’elles arrivent à destination, l’ELT permet à leur destinataire de contrôler leur manipulation. Avec l’ELT, la dissociation des étapes de transformation et de chargement garantit qu’une erreur de codage ou une autre erreur à l’étape de transformation n’affectera pas une autre étape.
L’ELT utilise la puissance et la taille de l’entrepôt de données pour permettre la transformation, ou le calcul évolutif, à grande échelle. L’entrepôt de données de destination peut augmenter ou diminuer le nombre de nœuds selon les besoins, en particulier dans un scénario de cloud où il existe plusieurs nœuds dans chaque cluster, et où plusieurs clusters peuvent être utilisés. Cela permet une flexibilité et une évolutivité à la demande.
L’ELT nécessite un serveur moins puissant pour la transformation des données, et il tire parti des ressources déjà présentes dans l’entrepôt. Cela se traduit par des économies et une utilisation plus efficace des ressources.
L’ELT permet d’utiliser le référentiel de destination de son choix, pour une meilleure flexibilité en termes de coûts et de ressources. Les entrepôts de données utilisent une architecture MPP (Massively Parallel Processing), notamment le stockage de volumes de données basé sur une mémoire en colonnes. Les processus de data lake qui appliquent un schéma, ou modèle de transformation, dès la réception des données (également appelé « schéma en lecture ») sont également pris en charge. Ces processus efficaces offrent une flexibilité qui permet de traiter de grandes quantités de données.
Un fonctionnement continu est idéal pour tout environnement où un accès rapide aux données est nécessaire. L’ELT est particulièrement adapté aux données utilisées dans des environnements cloud qui incluent souvent des applications accessibles à la demande en continu. De même, la transformation ELT cloud native offre cette évolutivité et cette flexibilité.
Une organisation peut choisir de passer d’une architecture ETL à une architecture ELT. La raison justifiant cette transition peut être un changement dans l’utilisation d’un produit ou service qui nécessite une réponse et une interaction en temps réel. Il arrive également que la quantité de données augmente de manière exponentielle et que la transformation retarde l’étape de chargement en raison des demandes de traitement de volumes élevés sur l’infrastructure. Une organisation peut également choisir de passer de l’ETL à l’ELT après une migration vers le cloud, si elle souhaite décharger le traitement ou utiliser les données à l’emplacement de destination plus rapidement.
Dans le contexte de cette transition, il faut bien évidemment s’attendre à rencontrer des difficultés. Tout d’abord, l’ELT et l’ETL impliquent une logique et un code diamétralement opposés. Cela peut nécessiter une reconfiguration complète de l’environnement et éventuellement une nouvelle infrastructure ou un nouveau fournisseur d’infrastructure dans le cloud. De plus, avec l’ELT, les données brutes sont envoyées à l’entrepôt de destination. Par conséquent, la sécurité est un élément à prendre en compte et elle doit être mise en œuvre pour assurer la protection des données.
L’ELT n’est pas une nouvelle technologie. Auparavant, des tables de transfert étaient utilisées pour déplacer les données vers un entrepôt de données à des fins de traitement et de transformation, souvent à l’aide de scripts SQL. Les scripts SQL sont codés en dur et sont donc sujets à des erreurs de codage potentielles. Avec l’utilisation de SQL, les clients devaient choisir entre l’exécution native de l’entrepôt à l’aide de scripts SQL et la programmation déclarative, également appelée création déclarative. La création déclarative offre les avantages des environnements d’entrepôt de données plus modernes basés sur le cloud avec la création d’un code qui décrit ce que le programme doit accomplir plutôt que la manière dont il l’accomplira. Cela évite les erreurs de codage inhérentes aux autres processus, en particulier lorsque la transformation intervient avant la fonction de chargement.
L’ELT est généralement utilisé dans les environnements d’utilisation de données à volume élevé ou en temps réel. En voici quelques exemples précis :
IBM Cloud Pak for Data est une plateforme de données ouverte et extensible qui fournit une data fabric afin de rendre toutes les données disponibles pour l’IA et l’analytique, sur n’importe quel cloud.
L’IA libère la valeur des données de manière inédite. Grâce aux solutions DataOps, préparez vos données au monde de l’IA et du multicloud.
L’intégration des données vous permet de transformer des données structurées et non structurées et de les diffuser dans n’importe quel système sur une plateforme big data évolutive.