ELT (extrahieren, laden, transformieren) und ETL (extrahieren, transformieren, laden) sind beide Datenintegrationsprozesse, die Rohdaten von einem Quellsystem in eine Zieldatenbank wie einen Data Lake oder ein Data Warehouse übertragen. Diese Datenquellen können sich in mehreren verschiedenen Repositories oder in Altsystemen mit Altlast befinden, die dann mit ELT oder ETL an einen Zieldatenstandort übertragen werden.
Branchen-Newsletter
Bleiben Sie mit dem Think-Newsletter über die wichtigsten – und faszinierendsten – Branchentrends in den Bereichen KI, Automatisierung, Daten und mehr auf dem Laufenden. Weitere Informationen finden Sie in der IBM Datenschutzerklärung.
Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.
Mit ELT werden unstrukturierte Daten aus einem Quellsystem extrahiert und auf ein Zielsystem geladen, um später bei Bedarf transformiert zu werden. Diese unstrukturierten, extrahierten Daten werden Business-Intelligence-Systemen zur Verfügung gestellt, eine Datenaufbereitung ist nicht erforderlich. ELT nutzt Data Warehousing, um grundlegende Datenkonvertierungen durchzuführen, wie z. B. Datenvalidierung oder das Entfernen duplizierter Daten. Diese Prozesse werden in Echtzeit aktualisiert und für große Mengen an Rohdaten verwendet. ELT ist ein neueres Verfahren, das im Vergleich zu seiner älteren Schwester ETL nicht sein volles Potenzial ausgeschöpft hat. Der ELT-Prozess basierte ursprünglich auf fest programmierten SQL-Skripten. Diese SQL-Skripte haben eher potenzielle Codierungsfehler als die fortgeschritteneren Methoden, die in ETL verwendet werden.
Mit ETL werden unstrukturierte Daten aus einem Quellsystem extrahiert und bestimmte Datenpunkte und potenzielle „Schlüssel“ werden identifiziert, bevor Daten in die Zielsysteme geladen werden. In einem traditionellen ETL-Szenario werden die Quelldaten in einen Staging-Bereich extrahiert und ins Zielsystem verschoben. Im Staging-Bereich durchlaufen die Daten einen Transformationprozess, bei dem alle Datentypen organisiert und bereinigt werden. Durch diesen Transformationprozess sind die nun strukturierten Daten mit den Ziel-Datenspeichersystemen kompatibel. ETL wurde ursprünglich für die Arbeit mit relationalen Datenbanken entwickelt, die in der Vergangenheit den Markt dominierten. Dateningenieure arbeiten seit den 1970er Jahren an ETL-Prozessen, was ihnen Zeit gibt, die Data-Science-ETL-Prozesse erheblich zu verfeinern.
Im folgenden Video gibt Jamil Spain einen tieferen Einblick in ETL:
Der ELT-Ansatz ermöglicht eine schnellere Implementierung als der ETL-Prozess, allerdings sind die Daten nach dem Verschieben unübersichtlich. Die Transformation erfolgt nach der Lastfunktion und verhindert so die Verlangsamung der Migration, die während dieses Prozesses auftreten kann. ELT entkoppelt die Transformations- und Lastphasen und stellt sicher, dass ein Codierungsfehler (oder ein anderer Fehler in der Transformationsphase) den Migrationsaufwand nicht stoppt. Darüber hinaus vermeidet ELT Probleme mit der Serverskalierung, indem es die Rechenleistung und Größe des Data Warehouse nutzt, um Transformation in großem Maßstab zu ermöglichen. ELT arbeitet auch mit Cloud Data Warehouse-Lösungen, um strukturierte, unstrukturierte, halbstrukturierte und Rohdaten zu unterstützen.
Die Implementierung von ETL dauert länger, ergibt aber sauberere Daten. Dieses Verfahren eignet sich gut für kleinere Zieldaten-Repositorys, die weniger häufig aktualisiert werden müssen. ETL arbeitet auch mit Cloud Data Warehouses, indem es Cloud-basierte SaaS-Plattformen und Data Warehouses vor Ort verwendet.
Es gibt außerdem zahlreiche Open-Source- und kommerzielle ETL-Tools mit Funktionen und Vorteilen, Nutzen die folgendes umfassen:
Ein ELT-Prozess eignet sich am besten für große Datenmengen oder Umgebungen zur Datennutzung in Echtzeit.
Konkrete Beispiele sind unter anderem:
ETL eignet sich am besten zur Synchronisierung mehrerer Datennutzungsumgebungen und zur Migration von Daten aus veralteten Systemen.
Im Folgenden sind einige konkrete Beispiele aufgeführt:
Der Hauptunterschied zwischen ELT und ETL liegt in der Reihenfolge der Operationen zwischen den beiden Prozessen, wodurch sie sich jeweils für unterschiedliche Situationen eignen. Andere Unterschiede bestehen in der Datengröße und den Datentypen, die jeder Prozess verarbeiten kann. Obwohl ELT und ETL ähnlich klingen, ist ihre Anwendung unterschiedlich.
Bei ELT ist der Prozess dadurch vereinfacht, dass keine „Schlüssel“ oder andere Identifikatoren benötigt werden, um die Daten zu übertragen und zu verwenden. Der ELT-Prozess wurde verfeinert und es gibt viele weiterentwickelte ELT-Tools, die zur Datenmigration eingesetzt werden. Die Ladezeiten sind kürzer, da der Prozess weniger Schritte umfasst. Die ELT-Lösung für Business-Intelligence-Systeme entstand aus dem Bedürfnis, unstrukturierte Daten schnell laden zu können. Eine cloudbasierte, automatisierte ELT-Lösung kann zudem relativ wartungsarm sein.
ETL-Daten liefern von Anfang an mehr Definition, was in der Regel mehr Zeit für die genaue Übertragung der Daten erfordert. Für diesen Prozess sind nur regelmäßige Aktualisierungen der Informationen erforderlich, keine Aktualisierungen in Echtzeit. ETL-Ladezeiten sind länger als bei ELT, da viele Schritte in der Transformation stattfinden müssen, bevor die Daten geladen werden.
IBM bietet diverse Services und Lösungen für die Datenintegration an, um eine geschäftlich verwertbare Datenpipeline zu unterstützen und Ihrem Unternehmen die Tools an die Hand zu geben, die es für eine effiziente Skalierung benötigt.
IBM, ein Marktführer in der lokalen und cloudbasierten Datenintegration, gibt Unternehmen das nötige Vertrauen bei der Verwaltung von Big-Data-Projekten, Anwendungen und maschineller Lerntechnologie. Mit branchenführenden Plattformen wie IBM Cloud Pak® for Data können Organisationen ihre DataOps-Prozesse modernisieren und gleichzeitig beste Virtualisierungstools nutzen, um die Geschwindigkeit und die Skalierbarkeit zu erreichen, die ihr Unternehmen jetzt und in der Zukunft benötigt.
Weitere Informationen darüber, wie Ihr Unternehmen eine effektive Strategie zur Datenintegration aufbauen und umsetzen kann, finden Sie in der IBM Suite der Datenintegrationsangebote.
Registrieren Sie sich für eine IBMid und erstellen Sie Ihr IBM Cloud-Konto
Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.
Watsonx.data ermöglicht es Ihnen, Analysen und KI mit all Ihren Daten zu skalieren, unabhängig davon, wo sie sich befinden, und zwar über einen offenen, hybriden und kontrollierten Datenspeicher.
Erschließen Sie den Wert von Unternehmensdaten mit IBM Consulting® und bauen Sie ein erkenntnisgesteuertes Unternehmen auf, das Ihnen geschäftliche Vorteile verschafft.