Accueil

Thèmes

elt

Qu’est-ce que l’ELT (Extraction, chargement, transformation) ?
Découvrir la solution ELT d’IBM S’inscrire pour recevoir les dernières informations sur l’IA
Illustration par un collage de pictogrammes représentant des nuages, un diagramme circulaire, des pictogrammes de graphique
Qu’est-ce que l’ELT ?

L’ELT (extraction, chargement, transformation) est un autre type de processus d’intégration de données, similaire à son homologue l’ETL (extraction, transformation, chargement). Ce processus déplace les données brutes d’un système source vers une ressource de destination, telle qu’un entrepôt de données.

Bien que similaire à l’ETL, l’ELT est une approche fondamentalement différente du prétraitement des données, qui n’a été adoptée que plus récemment avec la transition vers les environnements cloud.

Choisir le bon modèle de fondation

Utilisez ce cadre de sélection de modèles pour choisir le modèle le plus approprié tout en équilibrant vos exigences de performance avec les coûts, les risques et les besoins de déploiement.

Contenu connexe Obtenir l’eBook sur les entrepôts de données pour l’IA
Fonctionnement de l’ELT

L’ELT comprend trois étapes principales : extraction, chargement et transformation. Chacune de ces étapes est détaillée ci-dessous.

Extraire

Lors de l’extraction, les données sont copiées ou exportées depuis les emplacements sources vers une zone de préparation. Le jeu de données peut être constitué de nombreux types de données provenant de n’importe quelle source structurée ou non structurée ou presque, y compris, mais sans s’y limiter :

  • Des serveurs SQL ou NoSQL
  • Des systèmes CRM et ERP
  • Fichiers texte et documents
  • E-mail
  • Des pages web

Cela dit, ce sont généralement des données non structurées qui sont utilisées.

Charger

Lors de cette étape, les données transformées sont déplacées de la zone de préparation vers une zone de stockage, telle qu’un entrepôt de données ou un data lake.

Pour la plupart des organisations, le processus de chargement des données est automatisé, bien défini, continu et géré par lots. En général, l’ELT a lieu pendant les heures de bureau, lorsque le trafic sur les systèmes sources et l’entrepôt de données est à son maximum et que les consommateurs attendent d’utiliser les données à des fins d’analyse ou autre.

Transformer

À ce stade, une approche de schéma en écriture est employée, qui applique le schéma aux données avec SQL, ou transforme les données, avant l’analyse. Cette étape peut impliquer les tâches suivantes :

  • Filtrage, nettoyage, déduplication, validation et authentification des données.
  • Réalisation des calculs, des traductions, des analyses de données ou des synthèses à partir des données brutes. Cela peut inclure toutes les étapes, de la modification des en-têtes de lignes et de colonnes pour des raisons de cohérence à la conversion de devises ou d’unités de mesure, en passant par la modification de chaînes de texte et l’ajout de valeurs ou de la moyenne des valeurs : tous les éléments nécessaires pour répondre aux objectifs spécifiques de l’organisation en matière de BI ou d’analyse.
  • Suppression, chiffrement, masquage ou protection des données soumises à des réglementations gouvernementales ou sectorielles.
  • Mise en forme des données dans des tables ou des tables jointes en fonction du schéma déployé dans l’entrepôt.
ETL ou ELT

Il est possible de confondre l’ELT avec son homologue à l’acronyme quasi identique. Cependant, il existe plusieurs différences distinctes entre l’ELT et l’ETL(extraction, transformation, chargement). Il s’agit d’un processus d’intégration des données qui combine les données de plusieurs sources dans un seul magasin cohérent chargé dans un entrepôt de données ou un autre système cible. Les outils ETL traditionnels ont été conçus pour créer des entrepôts de données destinés à venir à l’appui des applications de Business Intelligence (BI) et d’intelligence artificielle (IA).

ETL et ELT, quelles sont les différences ?

La différence évidente, c’est que le processus ELT exécute la fonction de chargement avant la fonction de transformation, ce qui revient à inverser les deuxième et troisième étapes du processus ETL. L’ELT copie ou exporte les données à partir des emplacements sources, mais au lieu de les déplacer dans une zone de préparation, il charge les données brutes directement dans le magasin de données cible pour les transformer en fonction des besoins. L’ELT ne transforme aucune donnée en transit.

Cependant, l’ordre des étapes n’est pas la seule différence. Dans l’ELT, le magasin de données cible peut être un entrepôt de données, mais le plus souvent, il s’agit d’un data lake, un vaste magasin central conçu pour stocker des données structurées et non structurées à très grande échelle.

Les data lakes sont gérés à l’aide d’une plateforme de big data (comme Apache Hadoop) ou d’un système de gestion de données NoSQL distribué. Ils peuvent soutenir la business intelligence, mais le plus souvent, ils sont créés pour soutenir l’intelligence artificielle, le machine learning, l’analyse prédictive et les applications pilotées par les données en temps réel et les flux d’événements.

Il existe également d’autres différences entre l’ETL et l’ELT. Par exemple, comme il transforme les données avant de les transférer vers le référentiel central, l’ETL peut faciliter la conformité en matière de confidentialité des données, voire la rendre plus systématique, que l’ELT (par exemple, si les analystes ne transforment pas les données sensibles avant leur utilisation, elles pourraient apparaître sans masquage dans le data lake). Cependant, les data scientists préféreront peut-être l’ELT, qui leur permet de jouer dans un « bac à sable » de données brutes et d’effectuer une transformation de données adaptée à des applications spécifiques. Mais, dans la plupart des cas, le choix entre l’ETL et l’ELT dépendra du choix entre les ressources disponibles et les besoins de l’entreprise.

Avantages de l’ELT

L’ELT offre plusieurs avantages aux utilisateurs qui intègrent le processus dans leurs workflows. Jetons un coup d’œil à certains de ses avantages notables :

Déplacement plus rapide des données vers la destination pour une disponibilité accélérée

Lorsque de grandes quantités de données de streaming sont générées, l’ELT permet de les charger immédiatement et les transforme une fois à leur destination. Cela permet d’éviter les ralentissements qui se produisent souvent si la transformation intervient avant la fonction de chargement, comme dans l’ETL. Souvent, des décisions dépendent de ces données, et les retards sont inacceptables. Le marché boursier, par exemple, génère de grandes quantités de données consommées en temps réel. Dans de tels scénarios, l’ELT est la solution de choix, car la transformation se produit une fois les données arrivées à destination.

Préoccupations dissociées

Comme les données sont transformées lorsqu’elles arrivent à destination, l’ELT permet à leur destinataire de contrôler leur manipulation. Avec l’ELT, la dissociation des étapes de transformation et de chargement garantit qu’une erreur de codage ou une autre erreur à l’étape de transformation n’affectera pas une autre étape.

Prévention des problèmes de mise à l’échelle du serveur

L’ELT utilise la puissance et la taille de l’entrepôt de données pour permettre la transformation, ou le calcul évolutif, à grande échelle. L’entrepôt de données de destination peut augmenter ou diminuer le nombre de nœuds selon les besoins, en particulier dans un scénario de cloud où il existe plusieurs nœuds dans chaque cluster, et où plusieurs clusters peuvent être utilisés. Cela permet une flexibilité et une évolutivité à la demande.

Economiser de l’argent

L’ELT nécessite un serveur moins puissant pour la transformation des données, et il tire parti des ressources déjà présentes dans l’entrepôt. Cela se traduit par des économies et une utilisation plus efficace des ressources.

Flexibilité

L’ELT permet d’utiliser le référentiel de destination de son choix, pour une meilleure flexibilité en termes de coûts et de ressources. Les entrepôts de données utilisent une architecture MPP (Massively Parallel Processing), notamment le stockage de volumes de données basé sur une mémoire en colonnes. Les processus de data lake qui appliquent un schéma, ou modèle de transformation, dès la réception des données (également appelé « schéma en lecture ») sont également pris en charge. Ces processus efficaces offrent une flexibilité qui permet de traiter de grandes quantités de données.

Opération ininterrompue

Un fonctionnement continu est idéal pour tout environnement où un accès rapide aux données est nécessaire. L’ELT est particulièrement adapté aux données utilisées dans des environnements cloud qui incluent souvent des applications accessibles à la demande en continu. De même, la transformation ELT cloud native offre cette évolutivité et cette flexibilité.

Défis associés au passage d’une architecture ETL à une architecture ELT

Une organisation peut choisir de passer d’une architecture ETL à une architecture ELT. La raison justifiant cette transition peut être un changement dans l’utilisation d’un produit ou service qui nécessite une réponse et une interaction en temps réel. Il arrive également que la quantité de données augmente de manière exponentielle et que la transformation retarde l’étape de chargement en raison des demandes de traitement de volumes élevés sur l’infrastructure. Une organisation peut également choisir de passer de l’ETL à l’ELT après une migration vers le cloud, si elle souhaite décharger le traitement ou utiliser les données à l’emplacement de destination plus rapidement.

Dans le contexte de cette transition, il faut bien évidemment s’attendre à rencontrer des difficultés. Tout d’abord, l’ELT et l’ETL impliquent une logique et un code diamétralement opposés. Cela peut nécessiter une reconfiguration complète de l’environnement et éventuellement une nouvelle infrastructure ou un nouveau fournisseur d’infrastructure dans le cloud. De plus, avec l’ELT, les données brutes sont envoyées à l’entrepôt de destination. Par conséquent, la sécurité est un élément à prendre en compte et elle doit être mise en œuvre pour assurer la protection des données.

Le passé et l’avenir de l’ELT

L’ELT n’est pas une nouvelle technologie. Auparavant, des tables de transfert étaient utilisées pour déplacer les données vers un entrepôt de données à des fins de traitement et de transformation, souvent à l’aide de scripts SQL. Les scripts SQL sont codés en dur et sont donc sujets à des erreurs de codage potentielles. Avec l’utilisation de SQL, les clients devaient choisir entre l’exécution native de l’entrepôt à l’aide de scripts SQL et la programmation déclarative, également appelée création déclarative. La création déclarative offre les avantages des environnements d’entrepôt de données plus modernes basés sur le cloud avec la création d’un code qui décrit ce que le programme doit accomplir plutôt que la manière dont il l’accomplira. Cela évite les erreurs de codage inhérentes aux autres processus, en particulier lorsque la transformation intervient avant la fonction de chargement.

Cas d’utilisation

L’ELT est généralement utilisé dans les environnements d’utilisation de données à volume élevé ou en temps réel. En voici quelques exemples précis :

  • Les organisations ayant besoin d’un accès instantané aux données. Parmi les exemples, citons les marchés boursiers ou les grands distributeurs en gros d’actions, de composants industriels et d’autres matériaux, qui ont besoin d’accéder en temps réel aux données à jour pour un accès immédiat à la business intelligence.
  • Les organisations disposant d’énormes volumes de données. Citons par exemple les systèmes météorologiques tels que les services météo qui collectent, rassemblent et utilisent régulièrement de grandes quantités de données. Les entreprises dont les volumes de transactions sont importants peuvent également entrer dans cette catégorie. Une organisation telle qu’un laboratoire d’astronomie doté de très grands télescopes génère une grande quantité de données qui devront être rassemblées et analysées. Les deux catégories pourraient se chevaucher, car de nombreux secteurs produisent et utilisent une grande quantité de données et ont besoin d’y accéder en temps réel.
Solutions connexes
IBM Cloud Pak for Data

IBM Cloud Pak for Data est une plateforme de données ouverte et extensible qui fournit une data fabric afin de rendre toutes les données disponibles pour l’IA et l’analytique, sur n’importe quel cloud.

Découvrir IBM Cloud Pak for Data
IBM DataOps

L’IA libère la valeur des données de manière inédite. Grâce aux solutions DataOps, préparez vos données au monde de l’IA et du multicloud.

Découvrir IBM DataOps
Intégration des données

L’intégration des données vous permet de transformer des données structurées et non structurées et de les diffuser dans n’importe quel système sur une plateforme big data évolutive.

Découvrir l’intégration des données
Passez à l’étape suivante

IBM DataStage est un outil d’intégration de données de pointe qui vous aide à concevoir, à développer et à exécuter des tâches qui déplacent et transforment les données. Essentiellement, DataStage prend en charge les modèles d’extraction, de transformation et de chargement (ETL) et d’extraction, de chargement et de transformation (ELT).

Explorer DataStage Essayer gratuitement