Was ist Extrahieren, Laden, Transformieren (ELT)?

Was ist ELT?

ELT steht für „Extrahieren, Laden, Transformieren“ (oder auch den englischen Begriff „Extract, Load, Transform“) und ist eine weitere Art der Datenintegrationsprozesse. Dabei werden Rohdaten von einem Quellensystem zu einer Zielressource wie z. B. einem Data Warehouse übertragen.

ELT weist zwar Ähnlichkeiten mit dem ETL-Prozess (Extrahieren, Transformieren, Laden) auf, ist aber ein grundlegend anderer Ansatz für die Datenvorverarbeitung, der erst in der jüngeren Vergangenheit durch den Übergang zu Cloud-Umgebungen an Beliebtheit gewonnen hat.

3D-Design aus Kugeln, die auf einer Schiene rollen

Die neuesten Erkenntnisse und Insights zu KI

Entdecken Sie von Experten kuratierte Erkenntnisse und Neuigkeiten zu KI, Cloud und mehr im wöchentlichen Newsletter Think.

So funktioniert ELT

Ein ELT-Prozess besteht aus drei Hauptphasen: dem Extrahieren, Laden und Transformieren. In diesem Abschnitt befassen wir uns genauer mit diesen Phasen.

Extrahieren

Bei der Datenextraktion werden die Daten von ihren Quellenspeicherorten in einen Staging-Bereich kopiert oder exportiert. Es werden Datensätze mit einer Vielzahl von Datentypen und aus praktisch jeder strukturierten oder unstrukturierten Quelle unterstützt, einschließlich:

SQL- oder NoSQL -Server
CRM- und ERP-Systeme
Text- und Dokumentdateien
E-Mail
Webseiten

Besonders häufig wird ELT allerdings für die Verarbeitung unstrukturierter Daten verwendet.

Laden

In diesem Schritt werden die transformierten Daten aus dem Staging-Bereich in einen Datenspeicherbereich (z. B. ein Data Warehouse oder einen Data Lake) verschoben.

In den meisten Unternehmen ist der werden Daten automatisch, kontinuierlich, stapelgesteuert und nach genauen Definitionen geladen. Üblicherweise wird ELT während der Geschäftszeiten durchgeführt, wenn der Datenverkehr auf den Quellsystemen und im Data Warehouse am höchsten ist und Anwender darauf warten, die Daten für Analysen oder andere Zwecke zu nutzen.

Transformieren

In dieser Phase wird ein „Schema-on-write“-Ansatz verfolgt. Dieser Ansatz wendet mithilfe von SQL ein Schema auf die Daten an oder transformiert diese vor der Analyse. Dadurch kann die Konsistenz der Daten erhöht und die spätere Datenabfrage vereinfacht werden (im Kontrast zum „Schema-on-read“-Ansatz, der die Daten erst beim Auslesen in ein Schema strukturiert). Diese Phase kann Folgendes beinhalten:

Filterung, Bereinigung, Entfernung von Duplikaten, Validierung und Authentifizierung der Daten. Auf diese Weise kann sichergestellt werden, dass nur korrekte und relevante Daten angezeigt werden.
Durchführen von Berechnungen, Umsetzungen, Datenanalysen oder Zusammenfassungen auf Basis der Rohdaten. Dies kann alles umfassen, was für die spezifischen Business-Intelligence- oder Analysezwecke des Unternehmens erforderlich ist. Dazu zählt beispielsweise die Änderung von Zeilen- und Spaltenüberschriften aus Konsistenzgründen, die Konvertierung von Währungen oder Maßeinheiten, die Bearbeitung von Textzeichenfolgen, das Hinzufügen von Werten oder das Bilden von Durchschnittswerten.
Entfernen, Verschlüsseln, Ausblenden oder Schützen von Daten zur Einhaltung gesetzlicher oder branchenspezifischer Vorschriften. Wenn wichtige Compliance-Angelegenheiten in dieser Phase eingearbeitet werden, hilft das dabei, dass sämtliche angezeigten Datensätze vorschriftskonform sind, was Risiken durch Datenlecks oder Cyberangriffe minimiert.
Formatieren der Daten in Tabellen oder verknüpften Tabellen basierend auf dem im Data Warehouse bereitgestellten Schema. So können sämtliche Daten auf eine einheitliche Weise geladen werden, um einen späteren Abruf bestimmter Daten deutlich zu vereinfachen. Eine Strukturierung Ihrer Daten ermöglicht einen besseren Überblick und ressourcensparende Abfragen.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Alle Episoden von Mixture of Experts ansehen

ETL vs. ELT

ELT und ELT haben sehr ähnliche Namen. Da kann es schon mal vorkommen, dass diese beiden Prozesse miteinander verwechselt werden – oder man sie gar für denselben Ansatz hält. Tatsächlich sind sie eng miteinander verwandt, es bestehen allerdings einige deutliche Unterschiede zwischen ELT und dem ETL-Prozess, der für Extrahieren, Transformieren und Laden steht. ETL ist ein Datenintegrationsprozess, der Daten aus verschiedenen Datenquellen in einem einzigen, konsistenten Datenspeicher zusammenführt, der dann in ein Data Warehouse oder ein anderes Zielsystem geladen wird. Ursprünglich wurden ETL-Tools für die Erstellung von Data Warehouses zur Unterstützung von Business-Intelligence-Anwendungen (BI-Anwendungen) sowie Anwendungen mit künstlicher Intelligenz (KI, auch AI für Artificial Intelligence) entwickelt.

ETL und ELT – welche Unterschiede gibt es?

Der offensichtliche Unterschied ist, dass der ELT-Prozess die Ladefunktion vor der Transformationsfunktion ausführt. Der zweite und dritte Schritt finden also in umgekehrter Reihenfolge statt. ELT kopiert oder exportiert die Daten von den Quellspeicherorten, aber anstatt sie zur Transformation in einen Staging-Bereich zu verschieben, lädt es die Rohdaten direkt in den Zieldatenspeicher, wo sie nach Bedarf transformiert werden können. ELT transformiert Daten also nicht während der Übertragung.

Die Unterschiede gehen allerdings über die Reihenfolge der Schritte hinaus. Bei ELT kann der Zieldatenspeicher ein Data Warehouse sein, häufiger ist es jedoch ein Data Lake – ein großer zentraler Speicher, der sowohl strukturierte als auch unstrukturierte Daten in großem Umfang speichern kann.

Data Lakes werden mit einer Big-Data-Plattform (z. B. Apache Hadoop) oder einem verteilten NoSQL-Datenmanagementsystem verwaltet. Sie eignen sich hervorragend als Unterstützung für den Bereich Business Intelligence, werden aber auch besonders häufig für künstliche Intelligenz, Machine Learning (maschinelles Lernen), prädiktive Analyse und Anwendungen entwickelt, die von Echtzeitdaten und Event-Streams gesteuert werden.

Darüber hinaus gibt es weitere Unterschiede zwischen ETL und ELT. Da ETL Daten transformiert, bevor sie in das zentrale Repository verschoben werden, kann dieser Prozess einfacher und systematischer für die Einhaltung des Datenschutzes sorgen als ELT. Wenn Analysten beispielsweise sensible Daten vor der Verwendung nicht transformieren, könnten diese unverschlüsselt im Data Lake vorliegen. Data-Scientists bevorzugen jedoch ELT, da es ihnen erlaubt, in einer „Sandbox“ mit Rohdaten zu experimentieren und ihre eigenen, auf spezifische Anwendungen zugeschnittenen Datentransformationen vorzunehmen. In den meisten Fällen hängt die Entscheidung zwischen ETL und ELT jedoch von den verfügbaren Unternehmensressourcen und -anforderungen ab.

Vorteile von ELT

ELT bietet Benutzern, die den Prozess in ihre Arbeitsabläufe integrieren wollen, mehrere Vorteile. Im Folgenden beschäftigen wir uns mit einigen der bemerkenswerten Vorteile:

Raschere Verfügbarkeit durch schnelleres Verschieben von Daten ans Ziel

Wenn große Mengen von Streaming-Daten erzeugt werden, ermöglicht ELT das sofortige Laden dieser Daten und transformiert sie, nachdem sie ihr Ziel erreicht haben. Dadurch wird eine Verlangsamung verhindert, die häufig durch das Transformieren vor dem Laden entsteht, wie z. B. bei ETL. Häufig müssen zeitlich sensible Entscheidungen auf der Grundlage dieser Daten getroffen werden, sodass Verzögerungen inakzeptabel sind. Dies ist beispielsweise beim Aktienmarkt der Fall, bei dem große Datenmengen entstehen, die in Echtzeit verarbeitet werden müssen. In solchen Szenarien ist ELT die optimale Lösung, da die Transformation hier erst erfolgt, nachdem die Daten ihr Ziel erreicht haben.

Entkoppeln von Problembereichen

Da die Daten bei der Ankunft am Zielort transformiert werden, ermöglicht ELT dem Empfänger der Daten, die Manipulation der Daten zu beeinflussen. Bei ELT wird durch die Entkopplung der Transformations- und Ladephase sichergestellt, dass sich Codierungsfehler oder andere Arten von Fehlern in der Transformationsphase nicht auf eine andere Phase auswirken. Stellen Sie es sich so vor: Wenn Sie einen Bausatz per Post vom Hersteller erhalten und ihn versehentlich falsch zusammenbauen, können Sie ihn einfach wieder auseinandernehmen und ihn dann korrekt zusammenbauen. Wenn aber der Hersteller für den Zusammenbau verantwortlich ist und Ihnen beim Erhalt ein Fehler auffällt, muss Ihnen der Hersteller nach einem wiederholten Zusammenbauen einen neuen Satz schicken, was deutlich mehr Zeit in Anspruch nehmen und mehr Umstände generieren würde. Auf eine ähnliche Weise profitieren Sie auch, wenn Sie Daten mithilfe von ELT erst nach dem Erhalt transformieren.

Vermeiden von Problemen bei der Serverskalierung

ELT nutzt das Potenzial und die Größe des Data Warehouse, um Transformationen oder skalierbare Berechnungen in großem Maßstab zu ermöglichen. Das Ziel-Data-Warehouse kann die Anzahl der Knoten je nach Bedarf erhöhen oder verringern. Dies gilt insbesondere für Cloud-Szenarien, in denen es mehrere Knoten innerhalb jedes Clusters gibt, sowie mehrere Cluster, die genutzt werden können. Dies ermöglicht eine bedarfsgerechte Flexibilität und Skalierbarkeit.

Kosteneinsparungen

ELT ist im Vergleich zu ETL nicht allzu ressourcenintensiv. Während ETL in der Regel einen leistungsfähigen Server und mehrere Datenbanken erfordert, ist für ELT ein weniger leistungsfähiger Server für die Datentransformation ausreichend. Zudem werden die bereits im Warehouse vorhandenen Ressourcen genutzt. Dies führt zu Kosteneinsparungen und einer gesteigerten Ressourceneffizienz.

Flexibilität

ELT ermöglicht es, ein beliebiges Ziel-Repository zu verwenden. Dies sorgt für flexible Kosten und leicht anpassbare Ressourcen. Data Warehouses nutzen die MPP-Architektur (Massively Parallel Processing), die es erlaubt, hohe Mengen an Prozessen gleichzeitig auszuführen. Zudem wird die spaltenorientierte Speicherung großer Datenmengen unterstützt, welche die Daten organisiert und somit eine besonders wirksame Kompression ermöglicht und so die Effizienz erhöht. Data Lake-Prozesse, die ein Schema oder ein Transformationsmodell anwenden, sobald die Daten empfangen werden (auch als „Schema-on-Read“ bezeichnet), können ebenfalls zum Einsatz kommen. Diese effizienten Prozesse bieten auch bei großen Datenmengen einen hohen Grad an Flexibilität.

Kontinuierlicher Betrieb

Der kontinuierliche Betrieb eignet sich ideal für alle Umgebungen, in denen ein schneller Zugriff auf die Daten erforderlich ist. ELT ist somit eine hervorragende Wahl für in Cloud-Umgebungen verwendete Daten, die häufig Anwendungen enthalten, auf die bei Bedarf immer wieder zugegriffen wird. Außerdem bietet die cloudnative ELT-Transformation die bereits erwähnten Vorteile in Bezug auf die Skalierbarkeit und Flexibilität.

Herausforderungen im Zusammenhang mit dem Wechsel von einer ETL- zu einer ELT-Architektur

Ein Unternehmen kann sich dazu entscheiden, von einer ETL- auf eine ELT-Architektur umzusteigen. Dafür gibt es viele mögliche Gründe. Es könnte beispielsweise sein, dass sich die Nutzung des Produkts oder Service verändert hat, sodass nun eine Reaktion und Interaktion in Echtzeit erforderlich ist. Oder vielleicht ist die Datenmenge exponentiell gewachsen und die Transformation vor dem Laden verzögert die Ladephase aufgrund der hohen Verarbeitungsanforderungen an die Infrastruktur. Ein Unternehmen kann sich aber auch für den Umstieg von ETL auf ELT entscheiden, wenn es auf die Cloud umgestiegen ist und die Verarbeitung auslagern oder die Daten am Ziel früher nutzen möchte.

In einem solchen Umstellungsszenario sollte man realistischerweise mit gewissen Herausforderungen rechnen. Zunächst einmal unterscheiden sich die Logik und der Code, die in ELT und ETL zum Einsatz kommen, grundlegend voneinander. Dadurch könnte es notwendig werden, das System vollständig neu zu konfigurieren. Möglicherweise müssen auch eine neue Infrastruktur oder ein neuer Anbieter mit Infrastruktur in der Cloud integriert werden. Darüber hinaus werden bei ELT die Rohdaten an das Ziel-Data-Warehouse gesendet, ohne dass diese zuvor im Rahmen einer Transformation unkenntlich gemacht werden. Daher ist die Sicherheit ein wichtiger Aspekt und muss gewährleistet werden, um die Daten zu schützen. Dies gilt sowohl für den generellen Schutz von Unternehmensdaten als auch insbesondere für sensible personenbezogene Kundendaten, die aus Compliance-Gründen besonderen Schutzes bedürfen.

Die Vergangenheit und Zukunft von ELT

ELT ist keine neue Technologie. In der Vergangenheit wurden häufig Staging-Tabellen verwendet, um Daten zur Verarbeitung und Transformation in ein Warehouse zu verschieben. Dabei kamen oft SQL-Scripts zum Einsatz. Da diese allerdings fest codiert sind, sind sie verhältnismäßig anfällig für Codierungsfehler. Bei der Verwendung von SQL hatten die Kunden die Wahl zwischen einer nativen Ausführung im Warehouse mit SQL-Scripts und einer deklarativen Programmierung, die auch als deklaratives Authoring bezeichnet wird. Das deklarative Authoring bietet die Vorteile modernerer, cloudbasierter Data-Warehouse-Umgebungen, indem ein Code erstellt wird, der beschreibt, was das Programm erreichen muss, und nicht, wie es dies tut. Dieser Prozess verhindert Codierungsfehler, die bei anderen Prozessen auftreten, insbesondere wenn die Transformation vor dem Laden erfolgt.

Anwendungsfälle

ELT wird in der Regel in Umgebungen mit hohem Datenaufkommen oder Echtzeitnutzung eingesetzt. Konkrete Beispiele sind: Konkrete Beispiele dafür sind:

Unternehmen, die sofortigen Zugriff benötigen. Beispiele hierfür sind Börsen oder Großanbieter von Aktien, Industrieerzeugnissen und anderen Materialien, die für Business-Intelligence-Anwendungen in Echtzeit auf aktuelle Daten zugreifen müssen. In derartigen Sektoren, in denen sich zentrale Variablen konstant ändern, kann ELT diese Daten verzögerungsfrei bereitstellen. So kann sich das Unternehmen jederzeit sicher sein, sämtliche Entscheidungen basierend auf den aktuellsten Datenwerten zu treffen.
Unternehmen mit riesigen Datenmengen. Dazu zählen beispielsweise Wetterdienste, deren meteorologische Systeme regelmäßig große Datenmengen sammeln, zusammenstellen und nutzen. Auch Unternehmen wie astronomische Labore mit extrem großen Teleskopen erzeugen große Datenmengen, die gesammelt und analysiert werden müssen. Doch auch Unternehmen mit einem großen Transaktionsvolumen könnten in diese Kategorie fallen. Zudem kommt es häufig zu Überschneidungen mit dem vorherigen Punkt, da es zahlreiche Branchen gibt, die große Datenmengen produzieren und nutzen und Echtzeitzugriff auf diese Daten benötigen.

Datenintegration für die, die in Sachen Daten führend sind

Erkunden Sie die wachsende Komplexität von Hybrid Cloud-Umgebungen zusammen mit Bausteinen für die Multicloud-Datenintegration wie Datenvirtualisierung, Replikation, Katalogisierung und Automatisierung, die dabei helfen können, den Wildwuchs einzugrenzen.

Ressourcen

2024 Gartner® Magic Quadrant™ for Data Integration Tools

IBM wurde im 2024 Gartner Magic Quadrant for Data Integration Tools zum 19. Mal in Folge als ein führender Anbieter im Bereich Datenintegrationstools genannt.

Steigerung der Akzeptanz von KI mit KI-fähigen Daten

Erfahren Sie, warum KI-gestützte Datenintelligenz und Datenintegration entscheidend sind, um die Bereitschaft für strukturierte und unstrukturierte Daten zu fördern und KI-Ergebnisse zu beschleunigen.

Das hybride, offene Data Lakehouse für KI

Entdecken Sie die Vorteile einer Data-Lakehouse-Strategie für Ihre Datenarchitektur, einschließlich der Kostenoptimierung Ihrer Workloads und der Skalierung von KI und Analysen, mit all Ihren Daten, überall.

Das Datendifferenzierungsmerkmal

Erkunden Sie den Leitfaden für Datenexperten zum Aufbau eines datengestützten Unternehmens und zur Förderung von geschäftlichen Vorteilen.

5 Gründe, warum Sie Ihre Datenintegration modernisieren sollten

Erfahren Sie mehr über die 5 wichtigsten Gründe, warum Sie Ihre Datenintegration mit IBM Cloud Pak for Data modernisieren sollten.

Gartner Prognose 2024: Wie sich KI auf Analytics-Nutzer auswirken wird

Erhalten Sie einzigartige Einblicke in die sich entwickelnde Geschäftswelt der ABI-Lösungen und hebt die wichtigsten Ergebnisse, Annahmen und Empfehlungen für Führungskräfte im Bereich Daten und Analysen hervor.

Weiterführende Lösungen

IBM® StreamSets

Erstellen und verwalten Sie intelligente Streaming-Datenpipelines über eine intuitive grafische Benutzeroberfläche, die eine nahtlose Datenintegration in Hybrid- und Multicloud-Umgebungen ermöglicht.

StreamSets erkunden

IBM Databand

Erkunden Sie IBM Databand, die Observability-Software für Datenpipelines. Sie erfasst automatisch Metadaten, um protokollierte Referenzwerte zu erstellen, Unregelmäßigkeiten zu erkennen und Workflows zu erstellen, damit Probleme mit der Datenqualität behoben werden können.

Databand erkunden

Lösungen zur Datenintegration

Erstellen Sie mit IBM-Datenintegrationslösungen belastbare, leistungsstarke und kostenoptimierte Datenpipelines für Ihre generativen KI-Initiativen, Echtzeitanalysen, Lagermodernisierungen und betrieblichen Anforderungen.

Datenintegrationslösungen entdecken

Machen Sie den nächsten Schritt

Entdecken Sie IBM DataStage, ein ETL-Tool (Extract, Transform, Load), das eine visuelle Benutzeroberfläche für die Gestaltung, Entwicklung und Bereitstellung von Datenpipelines bietet. Es ist als verwaltete SaaS-Lösung in der IBM Cloud, zum Selbsthosting und als Add-on zu IBM Cloud Pak for Data verfügbar.