Modele drzew decyzyjnych

Modele drzew decyzyjnych umożliwiają tworzenie systemów klasyfikacji, które przewidują lub klasyfikują przyszłe obserwacje na podstawie zestawu reguł decyzyjnych. Mając dane podzielone na interesujące nas klasy (np. kredyty o wysokim ryzyku kontra kredyty o niskim ryzyku, abonenci kontra użytkownicy prepaid, głosujący kontra niegłosujący, typy bakterii), możemy wykorzystać te dane do budowania reguł klasyfikujących stare lub nowe obserwacje z maksymalną dokładnością. Na przykład możemy zbudować drzewo klasyfikujące ryzyko kredytowe lub zamiar zakupu na podstawie wieku i innych czynników.

Ta strategia, nazywana czasem wywodzeniem reguł, ma kilka zalet. Po pierwsze, proces wnioskowania będący zapleczem modelu jest oczywisty dla osoby przeglądającej drzewo. W przypadku technik modelowania typu czarna skrzynka czasem trudno jest ustalić, jaką wewnętrzną logiką kieruje się algorytm.

Po drugie, proces autonomicznie uwzględnia w regułach tylko te atrybuty, które są naprawdę istotne przy podejmowaniu decyzji. Atrybuty, które nie zwiększają dokładności drzewa, są ignorowane. Takie rozwiązanie może dostarczyć bardzo użytecznych informacji o danych i umożliwia wybranie tylko istotnych zmiennych przed rozpoczęciem uczenia innego modelu, np. sieci neuronowej.

Modele użytkowe drzew decyzyjnych można przekształcać w zbiory reguł co-jeśli (zestawy reguł), które w wielu przypadkach przedstawiają informacje w bardziej zrozumiałej postaci. Prezentacja w formie drzewa decyzyjnego jest użyteczna, gdy chcemy sprawdzić, w jaki sposób atrybuty w danych mogą dzielić populację na podzbiory istotne dla naszego problemu. Wyniki węzła Drzewo - AS różnią się od wyników innych węzłów drzew decyzyjnych, ponieważ model użytkowy od razu zawiera listę reguł i nie wymaga tworzenia zestawu reguł. Prezentacja w formie zestawu reguł jest użyteczna, gdy chcemy dowiedzieć się, jaki związek mają poszczególne grupy elementów z konkretnym wnioskiem. Na przykład następująca reguła tworzy profil grupy samochodów wartych kupienia (sprawdzonych i z niskim przebiegiem):

IF tested = 'yes'
AND mileage = 'low'
THEN -> 'BUY'.

Algorytmy budowania drzewa

Dostępnych jest kilka algorytmów służących do klasyfikacji i analizy segmentacji. Wszystkie te algorytmy zasadniczo realizują to samo zadanie: dzieląc dane na kolejne podgrupy, analizują wszystkie zmienne w zbiorze danych, by znaleźć zmienną zapewniającą najlepszą klasyfikację lub predykcję. Proces jest rekursywny, a grupy są dzielone na coraz mniejsze jednostki aż do ukończenia drzewa (zgodnie z określonym kryterium zatrzymania). Zmienne przewidywane i wejściowe używane do budowania drzewa mogą być ilościowe (przedział liczbowy) lub jakościowe, w zależności od algorytmu. Jeśli zmienna przewidywana jest ilościowa, generowane jest drzewo regresji; jeśli zmienna przewidywana jest jakościowa, generowane jest drzewo klasyfikacji.

Węzeł Klasyfikacja i regresja (C&R) generuje drzewo decyzyjne umożliwiające predykcję lub klasyfikację przyszłych obserwacji. W metodzie tej stosowany jest rekursywny podział rekordów na segmenty przez minimalizację zanieczyszczeń w każdym kroku, przy czym węzeł w drzewie jest uważany za „czysty”, jeśli 100% obserwacji w węźle przypada na konkretną kategorię zmiennej przewidywanej. Zmienne przewidywana i wejściowa mogą być zakresami liczbowymi lub jakościowymi (nominalnymi, porządkowymi lub flagami); wszystkie podziały są binarne (tylko dwie podgrupy).
Węzeł CHAID generuje drzewa decyzyjne, korzystając ze statystyk chi-kwadrat w celu identyfikacji optymalnych podziałów. W odróżnieniu od węzłów drzewa C&R i węzłów QUEST, CHAID może generować drzewa niebinarne, co oznacza, że niektóre podziały mają więcej niż dwie gałęzie. Zmienne przewidywana i wejściowa mogą być zakresami liczbowymi (ciągłymi) lub jakościowymi. Wyczerpujący CHAID stanowi modyfikację CHAID umożliwiającą dokładniejsze badanie wszystkich możliwych podziałów, lecz obliczenia w jego przypadku zajmują więcej czasu.
Węzeł QUEST oferuje metodę klasyfikacji binarnej służącą do budowania drzew decyzyjnych, zaprojektowaną w celu redukcji czasu przetwarzania analiz dużych drzew decyzyjnych C&R, a jednocześnie w celu redukcji tendencji obecnej w metodach drzew klasyfikacji do preferowania danych wejściowych dopuszczających więcej podziałów. Zmienne wejściowe mogą być zakresami liczbowymi (ciągłymi), lecz zmienna przewidywana musi być jakościowa. Wszystkie podziały są binarne.
Węzeł C5.0 tworzy drzewo decyzyjne lub zestaw reguł. Model działa w oparciu o podział próby na podstawie zmiennej oferującej maksimum korzyści z informacji na każdym z poziomów. Zmienna przewidywana musi być jakościowa. Dozwolonych jest wiele podziałów na więcej niż dwie podgrupy.
Węzeł Drzewo-AS jest podobny do istniejącego węzła CHAID; jednak węzeł Drzewo-AS jest przeznaczony do przetwarzania dużych zbiorów w celu utworzenia pojedynczego drzewa i wyświetla model wynikowy w przeglądarce wyników, która została dodana w programie SPSS Modeler, wersja 17. Węzeł generuje drzewo decyzyjne używając statystyki chi-kwadrat (CHAID), aby określić optymalne podziały. CHAID może generować drzewa niebinarne, co oznacza, że niektóre podziały mają więcej niż dwie gałęzie. Zmienne przewidywana i wejściowa mogą być zakresami liczbowymi (ciągłymi) lub jakościowymi. Wyczerpujący CHAID stanowi modyfikację CHAID umożliwiającą dokładniejsze badanie wszystkich możliwych podziałów, lecz obliczenia w jego przypadku zajmują więcej czasu.
Węzeł Drzewa losowe jest podobny do istniejącego węzła C&RT; jednak węzeł Drzewa losowe jest przeznaczony do przetwarzania dużych zbiorów danych w celu utworzenia pojedynczego drzewa i wyświetla model wynikowy w przeglądarce wyników, która została dodana w programie SPSS Modeler, wersja 17. Węzeł Drzewa losowe generuje drzewo decyzyjne umożliwiające predykcję lub klasyfikację przyszłych obserwacji. W metodzie tej stosowany jest rekursywny podział rekordów na segmenty przez minimalizację zanieczyszczeń w każdym kroku, przy czym węzeł w drzewie jest uważany za czysty, jeśli 100% obserwacji w węźle przypada na konkretną kategorię zmiennej przewidywanej. Zmienne przewidywana i wejściowa mogą być zakresami liczbowymi lub jakościowymi (nominalnymi, porządkowymi lub flagami); wszystkie podziały są binarne (tylko dwie podgrupy).

Ogólne zastosowania analizy w oparciu o drzewo

Poniżej przedstawiono niektóre ogólne zastosowania analizy w oparciu o drzewo:

Segmentacja: określenie, które osoby prawdopodobnie należą do konkretnej klasy.

Podział na warstwy: przypisywanie każdej obserwacji do jednej z kilku kategorii, np. grupy wysokiego, średniego i niskiego ryzyka.

Predykcja: tworzenie reguł i wykorzystanie ich do przewidywania przyszłych zdarzeń. Predykcja może być także rozumiana jako próby powiązania atrybutów predykcyjnych z wartościami zmiennej ilościowej.

Redukcja danych i monitorowanie zmiennych: wybór użytecznych podzbiorów predyktorów z dużego zbioru zmiennych do wykorzystania przy budowaniu formalnego modelu parametrycznego.

Identyfikacja interakcji: identyfikacja relacji dotyczących tylko konkretnych podgrup i użycie ich w formalnym modelu parametrycznym.

Scalanie kategorii i kategoryzowanie zmiennych ilościowych: przekodowywanie kategorii predyktorów grup i zmiennych ilościowych w sposób minimalizujący straty informacji.