Was ist Apache Avro?

Was ist Avro?

Avro ist ein Open-Source-Projekt, das Services für die Serialisierung und den Austausch von Daten für Apache Hadoop bereitstellt. Diese Dienste können zusammen oder unabhängig voneinander genutzt werden.

Avro erleichtert den Austausch von Big Data zwischen Programmen, die in jeder beliebigen Sprache geschrieben sind. Mit dem Serialisierungsdienst können Programme Daten effizient in Dateien oder Nachrichten serialisieren. Die Datenspeicherung ist kompakt und effizient. Avro speichert sowohl die Datendefinition als auch die Daten zusammen in einer Nachricht oder Datei.

Avro speichert die Datendefinition im JSON-Format, wodurch sie leicht lesbar und interpretierbar ist. Die Daten selbst werden im Binärformat gespeichert, wodurch sie kompakt und effizient sind. Avro-Dateien enthalten Markierungen, die verwendet werden können, um große Datensätze in Teilmengen aufzuteilen, die für die Verarbeitung mit Apache MapReduce geeignet sind. Einige Datenaustauschdienste verwenden einen Code-Generator, um die Datendefinition zu interpretieren und Code für den Zugriff auf die Daten zu erstellen. Avro benötigt diesen Schritt nicht, was es ideal für Skriptsprachen macht.

Ein Hauptmerkmal von Avro ist die robuste Unterstützung für Datenschemata, die sich im Laufe der Zeit ändern – oft als Schema-Evolution bezeichnet. Avro verarbeitet Schemaänderungen wie fehlende, hinzugefügte und geänderte Felder. Dadurch können alte Programme neue Daten lesen und neue Programme alte Daten lesen. Avro enthält APIs für Java, Python, Ruby, C, C++ und mehr. Mit Avro gespeicherte Daten können von Programmen, die in verschiedenen Sprachen geschrieben wurden, weitergegeben werden, sogar von einer kompilierten Sprache wie C zu einer Skriptsprache wie Apache Pig.

Erstellen Sie verantwortungsvolle KI-Workflows mit KI-Governance

Lernen Sie die Bausteine und Best Practices kennen, die Ihren Teams helfen, verantwortungsvolle KI zu beschleunigen.

Ähnliche Inhalte

Registrieren und IDC-Bericht lesen

Weiterführende Lösungen

Verbessern Sie Ihre Analysen mit Hadoop-Lösungen von IBM

IBM und Cloudera haben sich zusammengetan, um eine branchenführende Hadoop-Distribution für Unternehmen anzubieten, die ein integriertes Ökosystem aus Produkten und Dienstleistungen umfasst, um schnellere Analysen im großen Maßstab zu unterstützen.

Big Data-Möglichkeiten mit IBM erkunden

Ressourcen

Das Data Warehouse hat sich weiterentwickelt: Eine Grundlage für analytische Exzellenz

Entdecken Sie einen erstklassigen Ansatz für die Datenverwaltung und erfahren Sie, wie Unternehmen Datentechnologien priorisieren, um Wachstum und Effizienz zu fördern.

Big Data verstehen – jenseits des Hypes

Lesen Sie diese praktische Einführung in die nächste Generation von Datenarchitekturen. Es wird die Rolle der Cloud und der NoSQL-Technologien vorgestellt und die praktischen Aspekte von Sicherheit, Datenschutz und Governance erörtert.

Machen Sie den nächsten Schritt

Skalieren Sie KI-Workloads für alle Ihre Daten, überall, mit IBM watsonx.data, einem zweckmäßigen Datenspeicher, der auf einer offenen Lakehouse-Architektur basiert.

watsonx.data erkunden

Buchen Sie eine Live-Demo