Die Datenaufbereitung beginnt am Ende der Datenuntersuchungsphase, wenn die relevanten Daten untersucht wurden und ihr Inhalt bekannt ist.
Diese Daten sind gewöhnlich aus folgenden Gründen noch nicht für die unmittelbare Analyse bereit:
- Daten wurden möglicherweise nicht bereinigt und eignen sich daher nicht zur weiteren Analyse. Dies gilt insbesondere dann, wenn Daten unvollständig, falsch oder inkonsistent sind.
Es gibt verschiedene Verfahren und Tools zum Bereinigen von Daten. Das vorliegende Tool umfasst jedoch keine Bereinigungsfunktion.
- Daten wurden möglicherweise in vielen Tabellen verteilt und Werte wurden möglicherweise mit einer für den aktuellen Geschäftszweck ungeeigneten Granularität erfasst. Beispielsweise enthalten Point-of-Sale-Daten einzelne Verkaufstransaktionen, während das Geschäftsziel die Ausführung von Produktrentabilitätsanalysen ist.
Die Daten müssen offensichtlich reorganisiert werden, damit Produkte zum Fokus der Analyse werden können.
Diese Datenreorganisation wird häufig als Datenaufbereitung bezeichnet.
Die Datenaufbereitung umfasst die folgenden Hauptschritte:
- Eingabemodell für die Datenaufbereitung definieren
- Der erste Schritt besteht im Definieren eines Eingabemodells für die Datenaufbereitung. Dies bedeutet, die relevanten Daten in der Datenbank zu finden und in Beziehung zu setzen. Diese Aufgabe wird gewöhnlich von einem Datenbankadministrator oder einem Data-Warehouse-Administrator ausgeführt, weil sie Kenntnisse des Datenbankmodells voraussetzt.
In diesem Schritt definiert der Datenbankadministrator semantische Konzepte wie zum Beispiel Hierarchien.
Die relevanten Tabellen werden verknüpft, damit die Datenumsetzungstasks mithilfe dieser semantischen Konzepte definiert werden können.
Wenn ein
OLAP-Modell in Form eines Cubing Services-Modells verfügbar ist, kann dieser Schritt übersprungen werden, weil das Würfelmodell als Eingabemodell importiert werden kann.
- Datenaufbereitungsprofil definieren
- Der zweite Schritt besteht im Definieren eines Datenaufbereitungsprofils. Dies bedeutet, den Fokus der Analyse zu ermitteln und die relevanten Eigenschaften anzugeben, die durch die Datenumsetzung berechnet werden sollen. Da die Profildefinition auf den im vorherigen Schritt definierten semantischen Konzepten basieren kann, kann dieser Schritt ohne großen Aufwand vom Mining-Analytiker ausgeführt werden.
Am Ende dieses Schritts ist eine einzelne logische Tabelle definiert. Diese logische Tabelle ist der Ausgangspunkt für die nachfolgende Data-Mining-Analyse. Sie können diese Tabelle erstellen, indem Sie einen Datenfluss oder ein SQL-Script generieren. Die resultierende Tabelle des Datenflusses bzw. des SQL-Scripts wird dann als Tabellenquelle in einem Mining-Fluss verwendet.
Abbildung 1. Datenaufbereitungsübersicht