Schritte der Datenaufbereitung

Die Datenaufbereitung beginnt am Ende der Datenuntersuchungsphase, wenn die relevanten Daten untersucht wurden und ihr Inhalt bekannt ist.
Diese Daten sind gewöhnlich aus folgenden Gründen noch nicht für die unmittelbare Analyse bereit:
Diese Datenreorganisation wird häufig als Datenaufbereitung bezeichnet. Die Datenaufbereitung umfasst die folgenden Hauptschritte:
Eingabemodell für die Datenaufbereitung definieren
Der erste Schritt besteht im Definieren eines Eingabemodells für die Datenaufbereitung. Dies bedeutet, die relevanten Daten in der Datenbank zu finden und in Beziehung zu setzen. Diese Aufgabe wird gewöhnlich von einem Datenbankadministrator oder einem Data-Warehouse-Administrator ausgeführt, weil sie Kenntnisse des Datenbankmodells voraussetzt.

In diesem Schritt definiert der Datenbankadministrator semantische Konzepte wie zum Beispiel Hierarchien. Die relevanten Tabellen werden verknüpft, damit die Datenumsetzungstasks mithilfe dieser semantischen Konzepte definiert werden können.

Wenn ein OLAP-Modell in Form eines Cubing Services-Modells verfügbar ist, kann dieser Schritt übersprungen werden, weil das Würfelmodell als Eingabemodell importiert werden kann.

Datenaufbereitungsprofil definieren
Der zweite Schritt besteht im Definieren eines Datenaufbereitungsprofils. Dies bedeutet, den Fokus der Analyse zu ermitteln und die relevanten Eigenschaften anzugeben, die durch die Datenumsetzung berechnet werden sollen. Da die Profildefinition auf den im vorherigen Schritt definierten semantischen Konzepten basieren kann, kann dieser Schritt ohne großen Aufwand vom Mining-Analytiker ausgeführt werden.

Am Ende dieses Schritts ist eine einzelne logische Tabelle definiert. Diese logische Tabelle ist der Ausgangspunkt für die nachfolgende Data-Mining-Analyse. Sie können diese Tabelle erstellen, indem Sie einen Datenfluss oder ein SQL-Script generieren. Die resultierende Tabelle des Datenflusses bzw. des SQL-Scripts wird dann als Tabellenquelle in einem Mining-Fluss verwendet.

Abbildung 1. Datenaufbereitungsübersicht
Diese Abbildung illustriert die verschiedenen Phasen des Data-Mining-Prozesses.


Feedback | Literaturübersicht