Avro ist ein Open-Source-Projekt, das Services für die Serialisierung und den Austausch von Daten für Apache Hadoop bereitstellt. Diese Dienste können zusammen oder unabhängig voneinander genutzt werden.
Avro erleichtert den Austausch von Big Data zwischen Programmen, die in jeder beliebigen Sprache geschrieben sind. Mit dem Serialisierungsdienst können Programme Daten effizient in Dateien oder Nachrichten serialisieren. Die Datenspeicherung ist kompakt und effizient. Avro speichert sowohl die Datendefinition als auch die Daten zusammen in einer Nachricht oder Datei.
Avro speichert die Datendefinition im JSON-Format, wodurch sie leicht lesbar und interpretierbar ist. Die Daten selbst werden im Binärformat gespeichert, wodurch sie kompakt und effizient sind. Avro-Dateien enthalten Markierungen, die verwendet werden können, um große Datensätze in Teilmengen aufzuteilen, die für die Verarbeitung mit Apache MapReduce geeignet sind. Einige Datenaustauschdienste verwenden einen Code-Generator, um die Datendefinition zu interpretieren und Code für den Zugriff auf die Daten zu erstellen. Avro benötigt diesen Schritt nicht, was es ideal für Skriptsprachen macht.
Ein Hauptmerkmal von Avro ist die robuste Unterstützung für Datenschemata, die sich im Laufe der Zeit ändern – oft als Schema-Evolution bezeichnet. Avro verarbeitet Schemaänderungen wie fehlende, hinzugefügte und geänderte Felder. Dadurch können alte Programme neue Daten lesen und neue Programme alte Daten lesen. Avro enthält APIs für Java, Python, Ruby, C, C++ und mehr. Mit Avro gespeicherte Daten können von Programmen, die in verschiedenen Sprachen geschrieben wurden, weitergegeben werden, sogar von einer kompilierten Sprache wie C zu einer Skriptsprache wie Apache Pig.
Lernen Sie die Bausteine und Best Practices kennen, die Ihren Teams helfen, verantwortungsvolle KI zu beschleunigen.
Registrieren und IDC-Bericht lesen
IBM und Cloudera haben sich zusammengetan, um eine branchenführende Hadoop-Distribution für Unternehmen anzubieten, die ein integriertes Ökosystem aus Produkten und Dienstleistungen umfasst, um schnellere Analysen im großen Maßstab zu unterstützen.
Entdecken Sie einen erstklassigen Ansatz für die Datenverwaltung und erfahren Sie, wie Unternehmen Datentechnologien priorisieren, um Wachstum und Effizienz zu fördern.
Lesen Sie diese praktische Einführung in die nächste Generation von Datenarchitekturen. Es wird die Rolle der Cloud und der NoSQL-Technologien vorgestellt und die praktischen Aspekte von Sicherheit, Datenschutz und Governance erörtert.