Entscheidungsbaummodelle

Mithilfe von Entscheidungsbaummodellen können Sie Klassifizierungssysteme entwickeln, die zukünftige Beobachtungen basierend auf einer Reihe von Entscheidungsregeln vorhersagen oder klassifizieren. Wenn die Daten in Klassen aufgeteilt sind, die Sie interessieren (z. B. Darlehen mit hohem Risiko im Gegensatz zu Darlehen mit niedrigem Risiko, Abonnenten gegenüber Personen ohne Abonnement, Wähler im Gegensatz zu Nichtwählern oder Bakterienarten), können Sie mit diesen Daten Regeln erstellen, die Sie zur Klassifizierung alter oder neuer Fälle mit maximaler Genauigkeit verwenden können. So können Sie z. B. einen Baum erstellen, der das Kreditrisiko oder die Kaufabsicht basierend auf Alter und anderen Faktoren klassifiziert.

Dieser Ansatz, manchmal bekannt als Regelinduktion, hat mehrere Vorteile. Zunächst wird die Argumentationskette hinter dem Modell deutlich, wenn Sie durch die Struktur blättern. Dies steht im Gegensatz zu anderen Blackbox-Modellierungstechniken, bei denen die interne Logik nicht so leicht zu durchschauen ist.

Zudem berücksichtigt der Prozess in seiner Regel automatisch nur die Attribute, die im Entscheidungsfindungsprozess wirklich von Bedeutung sind. Attribute, die nicht zur Genauigkeit des Baums beitragen, werden ignoriert. Dies kann zu sehr hilfreichen Informationen zu den Daten führen und kann dazu verwendet werden, die Daten auf die relevanten Felder zu reduzieren, bevor ein anderes Verfahren zum Maschinenlernen trainiert wird, z. B. ein neuronales Netz.

Entscheidungsbaummodellnuggets können in eine Sammlung von Wenn-dann-Regeln (ein Regelset) umgewandelt werden, die die Informationen in vielen Fällen in einer verständlicheren Form darstellen. Die Entscheidungsbaumdarstellung ist nützlich, wenn Sie sehen möchten, wie die Attribute in den Daten die Gesamtheit in Subsets teilen oder aufteilen, die für das Problem relevant sind. Die Tree-AS-Knotenausgabe unterscheidet sich von anderen Entscheidungsbaumknoten, da sie eine Liste von Regeln direkt in das Nugget einschließt, ohne dass ein Regelset erstellt werden muss. Die Regelsetdarstellung ist dann nützlich, wenn Sie sehen möchten, in welchem Zusammenhang bestimmte Elementgruppen mit einer bestimmten Schlussfolgerung stehen. Die folgende Regel präsentiert z. B. ein Profil für eine Gruppe von Fahrzeugen, die einen Kauf wert sind:

IF tested = 'yes'
AND mileage = 'low'
THEN -> 'BUY'.

Baumerstellungsalgorithmus

Mehrere Algorithmen sind für die Durchführung der Klassifizierungs- und Segmentierungsanalyse verfügbar. Diese Algorithmen führen alle im Grunde dieselben Operationen durch. Sie prüfen alle Felder Ihres Datasets, um das Feld zu finden, das die beste Klassifizierung oder Vorhersage liefert, indem sie die Daten in Untergruppen aufteilen. Der Vorgang wird rekursiv angewendet, wobei die Untergruppen in immer kleinere Einheiten aufgeteilt werden, bis der Baum erstellt ist (wie von bestimmten Stoppkriterien definiert). Die bei der Baumerstellung verwendeten Ziel- und Eingabefelder können je nach verwendetem Algorithmus stetig (numerischer Bereich) oder kategorial sein. Wenn ein stetiges Ziel verwendet wird, wird ein Regressionsbaum generiert; wenn ein kategoriales Ziel verwendet wird, wird ein Klassifizierungsbaum generiert.

Der Knoten für Klassifizierungs- und Regressionsbäume (C&R-Bäume) generiert einen Entscheidungsbaum, mit dem Sie zukünftige Beobachtungen vorhersagen oder klassifizieren können. Bei dieser Methode wird eine rekursive Partitionierung verwendet, um die Trainingsdatensätze in Segmente aufzuteilen. Dabei wird bei jedem Schritt die Unreinheit verringert und ein Knoten im Baum wird als "rein" betrachtet, wenn 100 % der Fälle in eine bestimmte Kategorie des Zielfelds fallen. Ziel- und Eingabefelder können numerische Bereiche oder kategorial (nominal, ordinal oder Flags) sein. Alle Aufteilungen sind binär (nur zwei Untergruppen).

Der CHAID-Knoten generiert Entscheidungsbäume unter Verwendung von Chi-Quadrat-Statistiken zur Ermittlung optimaler Aufteilungen. Im Gegensatz zu den Knoten vom Typ "C&R-Baum" und "QUEST" kann CHAID nicht binäre Bäume generieren, d. h. Bäume mit Aufteilungen mit mehr als zwei Verzweigungen. Ziel- und Eingabefelder können in einem numerischen Bereich (stetig) oder kategorial sein. Exhaustive CHAID ist eine Änderung von CHAID, die noch gründlicher vorgeht, indem sie alle möglichen Aufteilungen untersucht, allerdings mehr Rechenzeit beansprucht.

Der QUEST-Knoten bietet eine binäre Klassifizierungsmethode zum Erstellen von Entscheidungsbäumen, die dazu dient, die für Analysen von großen C&R-Bäumen erforderliche Verarbeitungszeit zu verkürzen. Gleichzeitig soll die in den Klassifizierungsbaummodellen festgestellte Tendenz verringert werden, die darin besteht, dass Eingaben bevorzugt werden, die mehr Aufteilungen erlauben. Eingabefelder können stetig (numerische Bereiche) sein, das Zielfeld muss aber kategorial sein. Alle Aufteilungen sind binär.

Der C5.0-Knoten erstellt entweder einen Entscheidungsbaum oder ein Regelset. Das Modell teilt die Stichprobe auf der Basis des Felds auf, das auf der jeweiligen Ebene den maximalen Informationsgewinn liefert. Das Zielfeld muss kategorial sein. Es sind mehrere Aufteilungen in mehr als zwei Untergruppen zulässig.

Der Tree-AS-Knoten ähnelt dem vorhandenen CHAID-Knoten, allerdings ist der Tree-AS-Knoten für die Verarbeitung großer Datenmengen konzipiert. Er erstellt daraus einen einzelnen Baum und zeigt das resultierende Modell im Ausgabeviewer an, der in SPSS Modeler Version 17 hinzugefügt wurde. Der Knoten generiert einen Entscheidungsbaum unter Verwendung von Chi-Quadrat-Statistiken (CHAID) zum Identifizieren optimaler Aufteilungen. Durch diese Verwendung von CHAID können nicht binäre Bäume generiert werden, d. h., einige Aufteilungen können mehr als zwei Verzweigungen haben. Ziel- und Eingabefelder können in einem numerischen Bereich (stetig) oder kategorial sein. Exhaustive CHAID ist eine Änderung von CHAID, die noch gründlicher vorgeht, indem sie alle möglichen Aufteilungen untersucht, allerdings mehr Rechenzeit beansprucht.

Der Random Trees-Knoten ähnelt dem vorhandenen C&RT-Knoten, allerdings ist der Random Trees-Knoten für die Verarbeitung großer Datenmengen konzipiert. Er erstellt daraus einen einzelnen Baum und zeigt das resultierende Modell im Ausgabeviewer an, der in SPSS Modeler Version 17 hinzugefügt wurde. Der Random Trees-Knoten generiert einen Entscheidungsbaum, mit dem Sie zukünftige Beobachtungen vorhersagen oder klassifizieren können. Bei dieser Methode wird eine rekursive Partitionierung verwendet, um die Trainingsdatensätze in Segmente aufzuteilen. Dabei wird bei jedem Schritt die Unreinheit verringert. Ein Knoten im Baum wird als rein betrachtet, wenn 100 % der Fälle im Knoten in eine bestimmte Kategorie des Zielfelds fallen. Ziel- und Eingabefelder können numerische Bereiche oder kategorial (nominal, ordinal oder Flags) sein. Alle Aufteilungen sind binär (nur zwei Untergruppen).

Allgemeine Verwendung der baumbasierten Analyse

Im Folgenden werden einige allgemeine Anwendungsbereiche der baumbasierten Analyse erläutert:

Segmentierung: Ermitteln Sie Personen, die wahrscheinlich Mitglieder einer bestimmten Klasse sind.

Schichtung: Weisen Sie Fälle einer von mehreren Kategorien zu, z. B. Gruppen mit hohem, mittlerem oder niedrigem Risiko.

Vorhersage: Erstellen Sie Regeln und verwenden Sie sie zum Vorhersagen zukünftiger Ereignisse. Vorhersage kann auch den Versuch bezeichnen, Vorhersageattribute Werten einer stetigen Variablen zuzuordnen.

Datenreduktion und Variablenscreening: Wählen Sie ein geeignetes Subset von Prädiktoren aus einer Vielzahl von Variablen aus und erstellen Sie damit ein formal parametrisches Modell.

Interaktionsidentifizierung: Ermitteln Sie Beziehungen, die nur für bestimmte Untergruppen gelten, und geben Sie diese in einem formal parametrischen Modell an.

Kategoriezusammenführung und Einteilung von stetigen Variablen: Codieren Sie Gruppenprädiktorkategorien und stetige Variablen mit minimalem Informationsverlust um.