HBase ist ein spaltenorientiertes nicht-relationales Datenbankverwaltungssystem , das am Anfang von läuft, Hadoop Distributed File System (HDFS) . HBase bietet eine fehlertolerante Weise der Speicherung von wenigen Daten-Sets, die in vielen Big Data Verwendungsfällen einheitlich sind. Es ist gut für geeignete Echtzeit- Datenverarbeitung oder wahlfrei Schreib-Lesezugriff zu großen Datenmengen.
Im Gegensatz zurelationalen Datenbanksystemen unterstützt HBase keine Structured Query Language wie SQL;in der Tat ist HBase überhaupt kein relationaler Datenspeicher. HBase-Anwendungen sind in Java ™ ganz wie eine typische Apache MapReduce Anwendung. HBase unterstützt Schreibanwendungen inApache Avro, RUHE und Sparsamkeit.
Ein HBase-System ist geplant, um linear zu skalieren. Es besteht aus einem Satz von Standardtabellen mti Zeilen und Spalten, genau wie eine traditionelle Datenbank. Jede Tabelle muss ein als Primärschlüssel definiertes Element haben, und alle Zugriffsversuche auf HBase-Tabellen müssen diesen Primärschlüssel verwenden
Avro unterstützt als Komponente eine Vielzahl primitiver Datentypen, darunter: numerische, binäre Daten und Zeichensätzen; und eine Reihe komplexer Typen, einschließlich Arrays, Maps, Listenwerte und Datensätze. Eine Sortierreihenfolge kann auch für Daten definiert werden.
HBase verlässt sich aufZooKeeper für leistungsfähige Koordination . ZooKeeper ist in HBase integriert, aber wenn Sie einen Produktionscluster ausführen, wird empfohlen, einen dedizierten ZooKeeper-Cluster zu verwenden, der in Ihren HBase-Cluster integriert ist.
HBase funktioniert gut mitHive, einer Abfrageengine zur Stapelverarbeitung von Big Data , um fehlertolerante Big Data Anwendungen zu aktivieren
Eine HBase-Spalte repräsentiert ein Attribut eines Objekts; Wenn die Tabelle diagnostische Protokolle von Servern in Ihrer Umgebung speichert, kann jede Zeile ein Protokolldatensatz sein, und eine typische Spalte könnte der Zeitstempel des Schreibens des Protokolldatensatzes oder der Servername sein, von dem der Datensatz stammt.
HBase ermöglicht es, viele Attribute zu Spaltenfamilien zusammenzufassen, sodass die Elemente einer Spaltenfamilie alle zusammen gespeichert werden. Dies unterscheidet sich von einer zeilen-orientierten relationalen Datenbank , in der alle die Spalten einer bestimmten Zeile zusammen gespeichert sind. Bei HBase müssen Sie das Tabellenschema vordefinieren und die Spaltenfamilien angeben. Es können jedoch jederzeit neue Spalten zu Familien hinzugefügt werden, wodurch das Schema flexibel wird und sich an sich ändernde Anwendungsanforderungen anpassen kann.
So wie Hadoop Distributed File System einen Namenknoten und untergeordnete Knoten hat und MapReduce untergeordnete JobTracker und TaskTracer hat, ist HBase auf ähnlichen Konzepten aufgebaut. n HBase verwaltet ein Hauptknoten den Cluster und Regionsserver speichern Teile der Tabellen und führen die Arbeit an den Daten aus. Auf dieselbe Weise hat Hadoop Distributed File System wegen der Verfügbarkeit des Namensknotens, der auch sensibel ist für den Verlust des Hauptknotens.
Vereinbaren Sie ein kostenloses Einzelgespräch mit einem IBM Big-Data-Experten, um zu erfahren, wie wir Sie dabei unterstützen können, Data Science und maschinelles Lernen im gesamten Apache Hadoop-Ökosystem auszuweiten.
IBM und Cloudera haben sich zusammengeschlossen, um eine branchenführende, unternehmensgerechte Hadoop-Distribution anzubieten, einschließlich eines integrierten Ökosystems von Produkten und Dienstleistungen zur Unterstützung schnellerer Analysen im großen Maßstab.
Erfahren Sie mehr über einen leistungsfähigen Ensatz für das Datenmanagement und darüber, wie Unternehmen Datentechnologien einsetzen, um Wachstum und Effizienz zu steigern.
Lesen Sie diese praktische Einführung in die nächste Generation von Datenarchitekturen. Sie führt in die Rolle der Cloud und der NoSQL-Technologien ein und erörtert die praktischen Aspekte von Sicherheit, Datenschutz und Governance. (PDF, 6.2 MB)