Qu'est-ce que l'ELT ? (Extract, Load, Transform – Extraction, Chargement et Transformation)

Qu'est-ce que l'ELT ?

ELT, qui signifie « extraction, chargement et transformation » (« Extract, Load, Transform » en anglais), est un autre type de processus d'intégration des données, similaire à son équivalent ETL (extraction, transformation et chargement - Extract, Transform, Load). Ce processus déplace les données brutes d'un système source vers une ressource cible, comme un entrepôt de données. Bien que similaire à l'ETL, l'ELT est une approche fondamentalement différente du pré-traitement des données, qui n'a été adopté que plus récemment avec la transition vers les environnements cloud.

Fonctionnement du processus ELT

L'ELT se compose de trois étapes principales : extraction, chargement et transformation. Chacune de ces étapes est détaillée ci-dessous.

Extraction

Lors de l'extraction des données, les données brutes sont copiées ou exportées des emplacements source vers une zone de transfert. Le fichier peut comprendre de nombreux types de données et provenir de pratiquement n'importe quel code source structuré ou non structuré, y compris, mais sans s'y limiter :

des serveurs SQL ou NoSQL ;
des systèmes CRM et ERP ;
des fichiers texte et document ;
des e-mails ;
des pages Web.

Il est cependant plus généralement utilisé avec des données non structurées.

Chargement

Lors de cette étape, les données transformées sont déplacées de la zone de transfert vers une zone de stockage de données, telle qu'un entrepôt de données ou un lac de données.

Pour la plupart des organisations, le processus de chargement est automatisé, bien défini, continu et piloté par lots. En général, le processus ELT a lieu pendant les heures ouvrables, lorsque le trafic sur les systèmes source et l'entrepôt de données est à son maximum et que les consommateurs attendent d'utiliser les données à des fins d'analyse ou autres.

Transformation

À cette étape, une approche de schéma d'écriture est utilisée, qui applique le schéma aux données à l'aide de SQL, ou transforme les données, avant analyse. Cette étape peut impliquer les actions suivantes :

Filtrer, nettoyer, dédupliquer, valider et authentifier les données.
Effectuer des calculs, des conversions, des analyses de données ou des résumés basés sur les données brutes. Cela peut tout inclure, de la modification des en-têtes de ligne et de colonne pour une meilleure cohérence dans la conversion de devises ou d'unités de mesure, à la modification de chaînes de texte et l'ajout ou la moyenne de valeurs, tout ce qui est nécessaire à l'aide à la décision ou à l'analyse de l'organisation.
Supprimer, chiffrer, masquer ou protéger les données gouvernées par les réglementations gouvernementales ou sectorielles.
Formater les données en tableaux ou tableaux joints en fonction du schéma déployé dans l'entrepôt.

ETL et ELT

Il est possible de confondre l'ELT avec son processus frère connu sous un sigle presque identique. Cependant, il existe plusieurs différences distinctes entre l'ELT et l'ETL (Extract, Transform and Load, Extraire, Transformer et Charger). L'ETL est un processus d'intégration de données qui combine les données de plusieurs sources de données dans un magasin de données cohérent unique qui est chargé dans un entrepôt de données ou un autre système cible. Les outils ETL traditionnels créent des entrepôts de données pour soutenir les applications de BI (Business Intelligence) et d'IA (intelligence artificielle).

ETL et ELT – Quelles sont les différences ?

La différence évidente réside dans le fait que le processus ELT réalise le chargement avant la transformation, une inversion des étapes 2 et 3 du processus ETL. L'ELT copie ou exporte les données à partir des emplacements source, mais au lieu de les charger dans une zone de transfert pour la transformation, il charge les données brutes directement dans le magasin de données cible pour les transformer selon les besoins. L'ELT ne transforme aucune donnée en transit.

Cependant, l'ordre des étapes n'est pas la seule différence. Dans l'ELT, le magasin de données cible peut être un entrepôt de données, mais il s'agit plus souvent d'un lac de données, c'est-à-dire un grand magasin central destiné à contenir à la fois des données structurées et des données non structurées à très grande échelle.

Les lacs de données sont gérés à l'aide d'une plateforme Big Data (comme Apache Hadoop) ou d'un système de gestion de données NoSQL distribué. Ils peuvent prendre en charge l'aide à la décision mais, le plus souvent, ils sont créés pour prendre en charge l'intelligence artificielle, l'apprentissage automatique, l'analyse prédictive et les applications pilotées par des flux de données et d'événements en temps réel.

Il existe également d'autres différences entre l'ETL et l'ELT. Par exemple, comme l'ETL transforme les données avant de les déplacer dans le référentiel central, il peut rendre la conformité à la confidentialité des données plus simple ou plus systématique que l'ELT (si les analystes ne transforment pas les données sensibles avant de devoir les utiliser, elles peuvent rester non masquées dans le lac de données). Cependant, les spécialistes des données peuvent préférer l'ELT, qui leur permet de lire dans un « bac à sable » de données brutes et de procéder à leur propre transformation de données adaptée à des applications spécifiques. Mais, dans la plupart des cas, le choix entre ETL et ELT dépendra des besoins et des ressources métier disponibles.

Avantages de l'ELT

L'ELT offre plusieurs avantages aux utilisateurs qui intègrent le processus dans leurs flux de travail. Certains des avantages notables sont les suivants :

Transfert plus rapide des données vers la destination pour une disponibilité plus précoce

Lorsque de grandes quantités de flux de données en continu sont générées, l'ELT permet de charger immédiatement les données et de les transformer après qu'elles atteignent leur destination. Ainsi, le ralentissement qui peut survenir si la transformation intervient avant le chargement est éliminé, comme dans l'ETL. Généralement, des décisions doivent être prises en relation avec ces données, et les retards sont inacceptables. Le marché de la bourse est un exemple ; il génère de grandes quantités de données qui sont consommées en temps réel. Dans des scénarios comme celui-ci, l'ELT est la solution de choix car la transformation se produit après que les données ont atteint leur destination.

Préoccupations distinctes

Comme les données sont transformées lorsqu'elles arrivent à destination, l'ELT permet au destinataire des données de contrôler leur manipulation. Avec l'ELT, le découplage des étapes de transformation et de chargement garantit qu'une erreur de codage, ou toute autre erreur lors de l'étape de transformation, n'affecte pas une autre étape.

Pas de problèmes de mise à l'échelle des serveurs

L'ELT utilise la puissance et la taille de l'entrepôt de données pour permettre la transformation ou le calcul évolutif à grande échelle. L'entrepôt de données de destination peut augmenter ou diminuer le nombre de nœuds selon les besoins, en particulier dans un scénario de cloud où il existe de multiples nœuds dans chaque grappe et de multiples grappes pouvant être utilisées. La flexibilité et l'extensibilité sont ainsi accrues.

Rentabilité

L'ELT nécessite un serveur moins puissant pour la transformation des données et tire avantage des ressources déjà présentes dans l'entrepôt. Il en résulte une économie de coûts et une efficacité des ressources.

Flexibilité

L'ELT permet d'utiliser le référentiel de destination adapté pour bénéficier d'une flexibilité au niveau des coûts et des ressources. Les entrepôts de données utilisent l'architecture MPP (traitement à parallélisme massif), notamment le stockage de volumes de données dans des mémoires en colonnes. Les processus de lac de données qui appliquent un schéma ou un modèle de transformation dès la réception des données (également appelé « schéma de lecture ») sont également pris en charge. Ces processus efficaces offrent une flexibilité pour de grandes quantités de données.

Exploitation continue

L'exploitation continue est idéale pour les environnements qui nécessitent un accès rapide aux données. L'ELT est parfaitement adapté aux données utilisées dans les environnements cloud qui comprennent généralement des applications accessibles à la demande en continu. De même, la transformation ELT cloud native offre l'extensibilité et la flexibilité précédemment mentionnées.

Défis associés au passage d'une architecture ETL à une architecture ELT

Une organisation peut décider de passer d'une architecture ETL à une architecture ELT. Cette transition peut être motivée par un changement dans l'utilisation de son produit ou de son service pour offrir, par exemple, des réponses et des interactions en temps réel, ou par le fait que le volume de données a augmenté de façon exponentielle et que la transformation retarde l'étape de chargement en raison de demandes de traitement de gros volumes sur l'infrastructure. Une organisation peut également choisir de passer d'ETL à ELT si elle est passée au cloud et souhaite décharger le traitement ou utiliser les données dans l'emplacement de destination plus tôt.

Dans un scénario de transition, il existe nécessairement des défis. Tout d'abord, la logique et le code utilisés dans l'ELT sont complètement différents dans l'ETL. Dans ce scénario, il est nécessaire de reconfigurer complètement l'infrastructure, d'en utiliser une nouvelle ou de faire appel à un nouveau fournisseur avec une infrastructure dans le cloud. De plus, avec l'ELT, les données brutes sont envoyées à l'entrepôt de destination. Par conséquent, la sécurité est un élément à prendre en compte et doit être mise en œuvre pour protéger les données.

Le passé et l'avenir de l'ELT

L'ELT n'est pas une nouvelle technologie. Des tables de transfert étaient auparavant utilisées pour transférer des données vers un entrepôt pour le traitement et la transformation, généralement à l'aide de scripts SQL. Les scripts SQL sont codés en dur, et donc sujets à d'éventuelles erreurs de codification. Avec SQL, les clients devaient choisir entre l'exécution d'un entrepôt natif utilisant des scripts SQL et la programmation déclarative, c'est-à-dire le développement déclaratif. Le développement déclaratif offre les avantages des entrepôts de données plus modernes et basés sur le cloud grâce à la création d'un code qui décrit ce que le programme doit accomplir plutôt que comment il va l'accomplir. Ce traitement permet d'éviter les erreurs de codification inhérentes à d'autres processus, notamment lorsque la transformation intervient avant le chargement.

Cas d'utilisation

L'ELT est généralement utilisé dans des environnements d'utilisation de données en temps réel. Par exemple dans les cas suivants :

Organisations nécessitant un accès instantané. Il s'agit, par exemple, des bourses de valeurs ou des grands grossistes de marchandises, de composants industriels ou proposant d'autres articles, qui ont besoin d'un accès en temps réel aux données en cours pour accéder immédiatement à l'aide à la décision.
Organisations avec d'énormes volumes de données. Il s'agit, par exemple, des systèmes météorologiques tels que les services météorologiques qui collectent, rassemblent et utilisent régulièrement de grandes quantités de données. Les entreprises disposant de gros volumes de transactions entrent également dans cette catégorie. Une organisation comme un laboratoire d'astronomie doté de très grands télescopes génère de gros volumes de données qui doivent être regroupés et analysés. Il peut exister un chevauchement entre les deux catégories, car de nombreux secteurs d'activité produisent et utilisent une grande quantité de données et doivent pouvoir y accéder en temps réel.

Solutions connexes

IBM Cloud Pak for Data

IBM Cloud Pak for Data est une plateforme de données ouverte et extensible qui fournit une data fabric pour rendre toutes les données disponibles pour l'IA et l'analytique, sur n'importe quel cloud.

Explorer IBM Cloud Pak for Data

IBM DataOps

L'IA invente de nouvelles façons de libérer la valeur des données. Organisez vos données pour les préparer à un univers régi par l'IA et le multicloud avec des solutions DataOps.

Explorer IBM DataOps

Intégration des données

Les outils d'intégration de données vous permettent de transformer des données structurées et non structurées et de les fournir aux systèmes de votre choix, sur une plateforme big data évolutive.

Explorer l'intégration des données

Pour aller plus loin

IBM propose plusieurs solutions et services d'intégration de données conçus pour prendre en charge un pipeline de données prêt à l'emploi et donner à votre entreprise les outils dont elle a besoin pour évoluer efficacement. IBM, leader de l'intégration de données, fournit aux entreprises la confiance dont elles ont besoin pour gérer des projets big data, des applications et des technologies d'apprentissage automatique. Avec des plateformes de pointe comme IBM Cloud Pak® for Data, les organisations peuvent moderniser leurs processus DataOpstout en utilisant les meilleurs outils de virtualisation pour atteindre la vitesse et l'évolutivité dont leur entreprise a besoin aujourd'hui et ultérieurement.

Explorer IBM Cloud Pak® for Data