Modele drzew decyzyjnych
Modele drzew decyzyjnych umożliwiają tworzenie systemów klasyfikacji, które przewidują lub klasyfikują przyszłe obserwacje na podstawie zestawu reguł decyzyjnych. Mając dane podzielone na interesujące nas klasy (np. kredyty o wysokim ryzyku kontra kredyty o niskim ryzyku, abonenci kontra użytkownicy prepaid, głosujący kontra niegłosujący, typy bakterii), możemy wykorzystać te dane do budowania reguł klasyfikujących stare lub nowe obserwacje z maksymalną dokładnością. Na przykład możemy zbudować drzewo klasyfikujące ryzyko kredytowe lub zamiar zakupu na podstawie wieku i innych czynników.
Ta strategia, nazywana czasem wywodzeniem reguł, ma kilka zalet. Po pierwsze, proces wnioskowania będący zapleczem modelu jest oczywisty dla osoby przeglądającej drzewo. W przypadku technik modelowania typu czarna skrzynka czasem trudno jest ustalić, jaką wewnętrzną logiką kieruje się algorytm.
Po drugie, proces autonomicznie uwzględnia w regułach tylko te atrybuty, które są naprawdę istotne przy podejmowaniu decyzji. Atrybuty, które nie zwiększają dokładności drzewa, są ignorowane. Takie rozwiązanie może dostarczyć bardzo użytecznych informacji o danych i umożliwia wybranie tylko istotnych zmiennych przed rozpoczęciem uczenia innego modelu, np. sieci neuronowej.
Modele użytkowe drzew decyzyjnych można przekształcać w zbiory reguł co-jeśli (zestawy reguł), które w wielu przypadkach przedstawiają informacje w bardziej zrozumiałej postaci. Prezentacja w formie drzewa decyzyjnego jest użyteczna, gdy chcemy sprawdzić, w jaki sposób atrybuty w danych mogą dzielić populację na podzbiory istotne dla naszego problemu. Wyniki węzła Drzewo - AS różnią się od wyników innych węzłów drzew decyzyjnych, ponieważ model użytkowy od razu zawiera listę reguł i nie wymaga tworzenia zestawu reguł. Prezentacja w formie zestawu reguł jest użyteczna, gdy chcemy dowiedzieć się, jaki związek mają poszczególne grupy elementów z konkretnym wnioskiem. Na przykład następująca reguła tworzy profil grupy samochodów wartych kupienia (sprawdzonych i z niskim przebiegiem):
IF tested = 'yes'
AND mileage = 'low'
THEN -> 'BUY'.
Algorytmy budowania drzewa
Dostępnych jest kilka algorytmów służących do klasyfikacji i analizy segmentacji. Wszystkie te algorytmy zasadniczo realizują to samo zadanie: dzieląc dane na kolejne podgrupy, analizują wszystkie zmienne w zbiorze danych, by znaleźć zmienną zapewniającą najlepszą klasyfikację lub predykcję. Proces jest rekursywny, a grupy są dzielone na coraz mniejsze jednostki aż do ukończenia drzewa (zgodnie z określonym kryterium zatrzymania). Zmienne przewidywane i wejściowe używane do budowania drzewa mogą być ilościowe (przedział liczbowy) lub jakościowe, w zależności od algorytmu. Jeśli zmienna przewidywana jest ilościowa, generowane jest drzewo regresji; jeśli zmienna przewidywana jest jakościowa, generowane jest drzewo klasyfikacji.
|
|
Węzeł Klasyfikacja i regresja (C&R) generuje drzewo decyzyjne umożliwiające predykcję lub klasyfikację przyszłych obserwacji. W metodzie tej stosowany jest rekursywny podział rekordów na segmenty przez minimalizację zanieczyszczeń w każdym kroku, przy czym węzeł w drzewie jest uważany za „czysty”, jeśli 100% obserwacji w węźle przypada na konkretną kategorię zmiennej przewidywanej. Zmienne przewidywana i wejściowa mogą być zakresami liczbowymi lub jakościowymi (nominalnymi, porządkowymi lub flagami); wszystkie podziały są binarne (tylko dwie podgrupy). |
|
|
Węzeł CHAID generuje drzewa decyzyjne, korzystając ze statystyk chi-kwadrat w celu identyfikacji optymalnych podziałów. W odróżnieniu od węzłów drzewa C&R i węzłów QUEST, CHAID może generować drzewa niebinarne, co oznacza, że niektóre podziały mają więcej niż dwie gałęzie. Zmienne przewidywana i wejściowa mogą być zakresami liczbowymi (ciągłymi) lub jakościowymi. Wyczerpujący CHAID stanowi modyfikację CHAID umożliwiającą dokładniejsze badanie wszystkich możliwych podziałów, lecz obliczenia w jego przypadku zajmują więcej czasu. |
|
|
Węzeł QUEST oferuje metodę klasyfikacji binarnej służącą do budowania drzew decyzyjnych, zaprojektowaną w celu redukcji czasu przetwarzania analiz dużych drzew decyzyjnych C&R, a jednocześnie w celu redukcji tendencji obecnej w metodach drzew klasyfikacji do preferowania danych wejściowych dopuszczających więcej podziałów. Zmienne wejściowe mogą być zakresami liczbowymi (ciągłymi), lecz zmienna przewidywana musi być jakościowa. Wszystkie podziały są binarne. |
|
|
Węzeł C5.0 tworzy drzewo decyzyjne lub zestaw reguł. Model działa w oparciu o podział próby na podstawie zmiennej oferującej maksimum korzyści z informacji na każdym z poziomów. Zmienna przewidywana musi być jakościowa. Dozwolonych jest wiele podziałów na więcej niż dwie podgrupy. |
|
|
Węzeł Drzewo-AS jest podobny do istniejącego węzła CHAID; jednak węzeł Drzewo-AS jest przeznaczony do przetwarzania dużych zbiorów w celu utworzenia pojedynczego drzewa i wyświetla model wynikowy w przeglądarce wyników, która została dodana w programie SPSS Modeler, wersja 17. Węzeł generuje drzewo decyzyjne używając statystyki chi-kwadrat (CHAID), aby określić optymalne podziały. CHAID może generować drzewa niebinarne, co oznacza, że niektóre podziały mają więcej niż dwie gałęzie. Zmienne przewidywana i wejściowa mogą być zakresami liczbowymi (ciągłymi) lub jakościowymi. Wyczerpujący CHAID stanowi modyfikację CHAID umożliwiającą dokładniejsze badanie wszystkich możliwych podziałów, lecz obliczenia w jego przypadku zajmują więcej czasu. |
|
|
Węzeł Drzewa losowe jest podobny do istniejącego węzła C&RT; jednak węzeł Drzewa losowe jest przeznaczony do przetwarzania dużych zbiorów danych w celu utworzenia pojedynczego drzewa i wyświetla model wynikowy w przeglądarce wyników, która została dodana w programie SPSS Modeler, wersja 17. Węzeł Drzewa losowe generuje drzewo decyzyjne umożliwiające predykcję lub klasyfikację przyszłych obserwacji. W metodzie tej stosowany jest rekursywny podział rekordów na segmenty przez minimalizację zanieczyszczeń w każdym kroku, przy czym węzeł w drzewie jest uważany za czysty, jeśli 100% obserwacji w węźle przypada na konkretną kategorię zmiennej przewidywanej. Zmienne przewidywana i wejściowa mogą być zakresami liczbowymi lub jakościowymi (nominalnymi, porządkowymi lub flagami); wszystkie podziały są binarne (tylko dwie podgrupy). |
Ogólne zastosowania analizy w oparciu o drzewo
Poniżej przedstawiono niektóre ogólne zastosowania analizy w oparciu o drzewo:
Segmentacja: określenie, które osoby prawdopodobnie należą do konkretnej klasy.
Podział na warstwy: przypisywanie każdej obserwacji do jednej z kilku kategorii, np. grupy wysokiego, średniego i niskiego ryzyka.
Predykcja: tworzenie reguł i wykorzystanie ich do przewidywania przyszłych zdarzeń. Predykcja może być także rozumiana jako próby powiązania atrybutów predykcyjnych z wartościami zmiennej ilościowej.
Redukcja danych i monitorowanie zmiennych: wybór użytecznych podzbiorów predyktorów z dużego zbioru zmiennych do wykorzystania przy budowaniu formalnego modelu parametrycznego.
Identyfikacja interakcji: identyfikacja relacji dotyczących tylko konkretnych podgrup i użycie ich w formalnym modelu parametrycznym.
Scalanie kategorii i kategoryzowanie zmiennych ilościowych: przekodowywanie kategorii predyktorów grup i zmiennych ilościowych w sposób minimalizujący straty informacji.