Was ist Hadoop?

Was ist Apache Hadoop?

Apache Hadoop ist ein Open-Source-Software-Framework, das von Douglas Cutting entwickelt wurde, der damals bei Yahoo arbeitete. Es ermöglicht mithilfe einfacher Programmiermodelle eine äußerst zuverlässige verteilte Verarbeitung großer Datenmengen.

Hadoop überwand die Skalierbarkeitsbeschränkungen von Nutch. Es basiert auf Clustern von Standardcomputern und bietet eine kostengünstige Lösung zum Speichern und Verarbeiten großer Mengen strukturierter, halbstrukturierter und unstrukturierter Daten ohne Formatanforderungen.

Eine Data Lake-Architektur mit Hadoop kann eine flexible Datenverwaltungslösung für Ihre Initiativen zur Big-Data-Analyse bieten. Da Hadoop ein Open-Source-Projekt ist und einem verteilten Rechenmodell folgt, ermöglicht es budgetfreundliche Preise für eine Big-Data-Software- und Speicherlösung.

Hadoop kann auch auf Cloud-Servern installiert werden, um die für Big Data erforderlichen Rechen- und Speicherressourcen besser zu verwalten. Für mehr Benutzerfreundlichkeit sind der Linux OS Agent, der UNIX OS Agent und der Windows OS Agent vorkonfiguriert und können automatisch gestartet werden. Führende Cloud-Anbieter wie Amazon Web Services (AWS) und Microsoft Azure bieten Lösungen an. Cloudera unterstützt Hadoop-Workloads sowohl lokal als auch in der Cloud und beinhaltet Optionen für eine oder mehrere Public-Cloud-Umgebungen mehrerer Anbieter. Verwenden Sie APIs für die Hadoop-Überwachung, um die Cluster und Services auf den Clustern hinzuzufügen, zu aktualisieren, zu löschen und anzuzeigen sowie für alle anderen Überwachungstypen auf Hadoop.

Der Datenspeicher für KI

Erfahren Sie, wie wirkungsvoll die Integration einer Data-Lakehouse-Strategie in Ihre Datenarchitektur sein kann, einschließlich Verbesserungen zur Skalierung von KI und Möglichkeiten zur Kostenoptimierung.

Ähnliche Inhalte

Registrieren Sie sich für das Whitepaper über KI-Governance

Das Hadoop-Ökosystem

Das von der Apache Software Foundation entwickelte Hadoop-Framework umfasst:

Hadoop Common: Die allgemeinen Dienstprogramme und Bibliotheken, die die anderen Hadoop-Module unterstützen. Auch bekannt als Hadoop Core.
Hadoop HDFS (Hadoop Distributed File System): Ein verteiltes Dateisystem zum Speichern von Anwendungsdaten auf handelsüblicher Hardware. HDFS wurde entwickelt, um Fehlertoleranz für Hadoop zu gewährleisten. Es bietet eine hohe aggregierte Datenbandbreite und einen Datenzugriff mit hohem Durchsatz. Standardmäßig werden Datenblöcke beim Laden oder Schreiben über mehrere Knoten repliziert. Der Replikationsgrad ist konfigurierbar: Die Standardreplikation beträgt drei. Die HDFS-Architektur verfügt über einen NameNode zur Verwaltung des Dateisystem-Namespace und Dateizugriffs sowie mehrere DataNodes zur Verwaltung des Datenspeichers. Durch die Aktivierung der Hochverfügbarkeit kann ein zweiter Knoten verwendet werden, wenn ein aktiver Knoten ausfällt.
Hadoop YARN: Open Source Apache Hadoop YARN ist ein Framework für die Jobplanung und Cluster-Ressourcenverwaltung, das mit IBM^® Spectrum Symphony auf Linux und Linux auf POWER verwendet werden kann. YARN steht für „Yet Another Resource Negotiator“. Es unterstützt mehr Workload, wie interaktives SQL, erweiterte Modellierung und Echtzeit-Streaming.
Hadoop MapReduce: Ein YARN-basiertes System, das Daten aus mehreren Quellen speichert und die parallele Verarbeitung großer Datenmengen ermöglicht. Für MapReduce stehen mehrere Optimierungstechniken zur Verfügung, um Jobs zu beschleunigen.
Hadoop Ozone: Ein skalierbarer, redundanter und verteilter Objektspeicher, der für Big Data-Anwendungen entwickelt wurde.

Unterstützung von Apache-Projekten

Erweitern Sie Hadoop mit zusätzlichen Open-Source-Softwareprojekten.

Ambari

Ein webbasiertes Tool zur Bereitstellung, Verwaltung und Überwachung von Hadoop-Clustern.

Avro

Ein System zur Datenserialisierung.

Mehr zu Avro

Cassandra

Eine skalierbare NoSQL-Datenbank, die so konzipiert ist, dass es keinen Single Point of Failure gibt.

Chukwa

Ein Datenerfassungssystem zur Überwachung großer verteilter Systeme, basierend auf HDFS und MapReduce.

Flume

Ein Dienst zum Sammeln, Aggregieren und Verschieben großer Mengen von Streaming-Daten in HDFS.

HBase

Eine skalierbare, nicht relationale, verteilte Datenbank, die strukturierte Datenspeicher für sehr große Tabellen unterstützt.

Weitere Informationen über Apache HBase

Hive

Eine Data Warehouse-Infrastruktur für Datenabfragen, Metadatenspeicherung für Tabellen und Analysen in einer SQL-ähnlichen Schnittstelle.

Weitere Informationen über Apache Hive

Mahout

Eine skalierbare Bibliothek für maschinelles Lernen und Data Mining.

Oozie

Ein Java-basierter Workload Scheduler zur Verwaltung von Hadoop-Jobs.

Pig

Eine High-Level-Datenflusssprache und ein Ausführungs-Framework für parallele Berechnungen.

Weitere Informationen über Apache Pig

Sqoop

Ein Tool zum effizienten Übertragen von Daten zwischen Hadoop und strukturierten Datenspeichern wie relationalen Datenbanken.

Submarine

Eine einheitliche KI-Plattform zum Ausführen von maschinellem Lernen und Deep Learning-Workloads in einem verteilten Cluster.

Tez

Ein verallgemeinertes Datenfluss-Programmier-Framework, das auf YARN basiert; wird im Hadoop-Ökosystem angewandt, um MapReduce zu ersetzen.

ZooKeeper

Ein leistungsstarker Koordinationsdienst für verteilte Anwendungen.

Hadoop für Entwickler

Apache Hadoop wurde in Java geschrieben, aber je nach Big Data-Projekt können Entwickler in der Sprache ihrer Wahl programmieren, beispielsweise in Python, R oder Scala. Mit dem enthaltenen Hadoop-Streaming-Dienstprogramm können Entwickler MapReduce-Jobs mit jedem Skript oder jeder ausführbaren Datei als Mapper oder Reducer erstellen und ausführen.

Spark vs. Hadoop

Apache Spark wird oft mit Hadoop verglichen, da es sich ebenfalls um ein Open-Source-Framework für die Verarbeitung großer Datenmengen handelt. Tatsächlich wurde Spark ursprünglich entwickelt, um die Verarbeitungsleistung zu verbessern und die mit Hadoop MapReduce möglichen Berechnungstypen zu erweitern. Spark verwendet In-Memory-Verarbeitung, was bedeutet, dass es wesentlich schneller ist als die Lese-/Schreibfunktionen von MapReduce.

Während sich Hadoop am besten für die Stapelverarbeitung großer Datenmengen eignet, unterstützt Spark sowohl die Stapelverarbeitung als auch die Echtzeit-Datenverarbeitung und ist ideal für Streaming-Daten und Diagrammberechnungen. Sowohl Hadoop als auch Spark verfügen über Bibliotheken für maschinelles Lernen, aber auch hier ist das maschinelle Lernen von Spark aufgrund der In-Memory-Verarbeitung viel schneller.

Mehr zu Apache Spark

Hadoop-Anwendungsfälle

Bessere datengesteuerte Entscheidungen: Integrieren Sie Echtzeit-Datenstreaming (Audio, Video, Social-Media-Sentiment- und Clickstream-Daten) und andere halbstrukturierte und unstrukturierte Daten, die nicht in einem Data Warehouse oder einer relationalen Datenbank verwendet werden. Umfassendere Daten ermöglichen genauere Entscheidungen.

Verbesserter Datenzugriff und verbesserte Datenanalyse: Ermöglichen Sie den Self-Service-Zugriff in Echtzeit für Ihre Data Scientists, Bereichsleiter und Entwickler. Hadoop kann Data Science vorantreiben, ein interdisziplinäres Feld, das Daten, Algorithmen, maschinelles Lernen und KI für erweiterte Analysen nutzt, um Muster aufzudecken und Vorhersagen zu treffen.

Datenauslagerung und -konsolidierung: Optimieren Sie die Kosten im Rechenzentrum Ihres Unternehmens, indem Sie „kalte“ Daten, die derzeit nicht verwendet werden, zur Speicherung in eine Hadoop-basierte Verteilung verschieben. Oder konsolidieren Sie Daten im gesamten Unternehmen, um die Zugänglichkeit zu erhöhen und die Kosten zu senken.

Weiterführende Lösungen

IBM und Cloudera

Unterstützen Sie prädiktive und präskriptive Analysen für die heutige KI. Kombinieren Sie die Hadoop-Distribution der Enterprise-Klasse von Cloudera mit einem Ökosystem integrierter Produkte und Dienste von IBM und Cloudera, um die Datenerkennung, das Testen sowie Ad-hoc- und nahezu Echtzeit-Abfragen zu verbessern. Nutzen Sie die Zusammenarbeit zwischen IBM und Cloudera, um Hadoop-Lösungen für Unternehmen bereitzustellen.

IBM und Cloudera kennenlernen

IBM Db2 Big SQL

Verwenden Sie eine auf Unternehmen abgestimmte hybride, ANSI-konforme SQL-on-Hadoop-Engine, die eine Parallelverarbeitung im großen Stil (MPP) und erweiterte Datenabfrage ermöglicht.

Mehr zu Db2 Big SQL

IBM Big Replicate

Replizieren Sie Daten schon beim Einströmen, sodass Dateien vor der Übertragung nicht vollständig geschrieben oder geschlossen werden müssen.

Big Replicate kennenlernen

Open-Source-Datenbanken

Profitieren Sie von Big Data mit Open-Source-Datenbanken führender Anbieter wie MongoDB und EDB kostengünstiger.

Open-Source-Datenbanken erkunden

Ressourcen

IBM + Cloudera

Erfahren Sie, wie Sie fortschrittliche Analysen mit einem sicheren, verwalteten, Open-Source-basierten Data Lake der Unternehmensklasse vorantreiben können.

Wie Sie mehr Daten vernetzen

Fügen Sie Ihrer Datenverwaltungsstrategie einen Data Lake hinzu, um mehr unstrukturierte Daten für neue Erkenntnisse zu integrieren.

Ein robuster, verwalteter Data Lake für KI

Lernen Sie die Speicher- und Governance-Technologie kennen, die Ihr Data Lake benötigt, um KI-fähige Daten bereitzustellen.

Data Lake-Governance

Erfahren Sie, wie bewährte Governance-Lösungen zu einer besseren Integration, Qualität und Sicherheit für Ihren Data Lake führen können.

Kurse zur Big Data-Analyse<br> <br>

Treffen Sie auf der Basis Ihres Kenntnisstands Ihre Auswahl aus kostenlosen Kursen in Data Science, KI, Big Data und mehr.

Open-Source-Community

Treten Sie der IBM Community für Open-Source-Datenverwaltung bei und profitieren Sie von Zusammenarbeit, Ressourcen und mehr.

Machen Sie den nächsten Schritt

Skalieren Sie KI-Workloads für alle Ihre Daten, überall, mit IBM watsonx.data, einem zweckmäßigen Datenspeicher, der auf einer offenen Lakehouse-Architektur basiert.

watsonx.data erkunden

Buchen Sie eine Live-Demo