Tworzenie drzew decyzyjnych

Procedura drzew decyzyjnych tworzy model klasyfikacji oparty na drzewie. Klasyfikuje obserwacje w grupy lub przewiduje wartości zależnej (przewidywanej) zmiennej w oparciu o wartości niezależnych zmiennych (predyktorów). Ta procedura udostępnia narzędzia walidacyjne przeznaczone do analizy eksploracyjnej lub potwierdzającej.

Ta procedura może być używana na potrzeby:

Segmentacja. Identyfikacja osób, które mogą należeć do konkretnej grupy.

Stratyfikacja. Przypisywanie obserwacji do jednej z kilku kategorii, takich jak grupy wysokiego, średniego i niskiego ryzyka.

Predykcja. Tworzenie reguł i używanie ich w celu przewidywania zdarzeń w przyszłości, takich jak prawdopodobieństwo tego, że ktoś nie będzie spłacał pożyczki, albo potencjalna wartość samochodu lub domu przy odsprzedaży.

Redukcja danych i filtrowanie zmiennych. Wybór użytecznego podzbioru predyktorów z dużego zestawu zmiennych w celu opracowania formalnego modelu parametrycznego.

Identyfikacja interakcji. Identyfikacja zależności, które dotyczą tylko konkretnych grup, a następnie określenie ich w formalnym modelu parametrycznym.

Scalanie kategorii i dyskretyzacja zmiennych ciągłych. Ponowne kodowanie kategorii predyktorów grup i zmiennych ciągłych z minimalnymi stratami informacji.

Przykład. Bank chce skategoryzować osoby składające wnioski o kredyty na podstawie tego, czy stanowią istotne ryzyko kredytowe, czy nie stanowią. Na podstawie różnych czynników, w tym na podstawie znanych rang kredytów dawnych klientów można opracować model, aby przewidzieć prawdopodobieństwo tego, że przyszli klienci nie będą spłacać pożyczek.

Analiza oparta o drzewo zapewnia kilka atrakcyjnych funkcji:

Umożliwia identyfikację jednorodnych grup z wysokim lub niskim ryzykiem.
Ułatwia tworzenie reguł przeznaczonych do wykonywania predykcji na temat poszczególnych obserwacji.

Zagadnienia dotyczące danych

Dane. Zmienne zależne i niezależne mogą być następujące:

Nominalna. Zmienna może być traktowana jako nominalna, gdy jej wartości reprezentują kategorie bez wewnętrznego rangowania; na przykład wydział, na którym są zatrudnieni pracownicy. Przykładami zmiennych nominalnych są: region, kod pocztowy lub wyznanie.
Porządkowy. Zmienna może być traktowana jako porządkowa, gdy jej wartości reprezentują kategorię z wewnętrznym rangowaniem, na przykład poziomy zadowolenia z usługi od bardzo niezadowolonego do bardzo zadowolonego). Przykładami zmiennych porządkowych mogą być oceny opinii reprezentujące stopień satysfakcji lub przekonania oraz oceny preferencji.
Skala. Zmienna może być traktowana jako zmienna (ilościowa), gdy jej wartości reprezentują uporządkowane kategorie ze znaczącą metryką, która umożliwia porównywanie odległości między wartościami. Przykładami zmiennych ilościowych mogą być: wiek w latach lub przychód w tysiącach złotych.

Wagi liczebności Jeżeli obowiązuje ważenie, wagi ułamkowe są zaokrąglane do najbliższej wartości całkowitej; dlatego do obserwacji z wartością wagi niższą niż 0,5 przypisywane są wagi 0 i dlatego są wykluczane z analizy.

Założenia. Ta procedura zakłada, że odpowiedni poziom pomiaru został przypisany do wszystkich zmiennych analizy, a niektóre funkcje zakładają, że wszystkie wartości zmiennej zależnej uwzględnionej w analizie mają zdefiniowane etykiety wartości.

Poziom pomiaru. Poziom pomiaru wpływa na obliczenia w drzewie; dlatego do wszystkich zmiennych powinien być przypisany odpowiedni poziom pomiaru. Domyślnie obowiązuje założenie, że zmienne numeryczne są ilościowe, a zmienne łańcuchowe są nominalne, co niekoniecznie dokładnie odzwierciedla rzeczywisty poziom pomiaru. Ikona obok każdej zmiennej na liście zmiennych określa jej rodzaj.

Tabela 1. Ikony poziomu pomiaru
Ikona	Poziom pomiaru
	Skala
	Nominalny
	Porządkowy

Można tymczasowo zmienić poziom pomiaru dla zmiennej, klikając prawym przyciskiem myszy zmienną na liście zmiennych źródłowych i wybierając poziom pomiaru z menu kontekstowego.

Etykiety wartości. W interfejsie okna dialogowego dla tej procedury obowiązuje założenie, że etykiety wartości są zdefiniowane dla wszystkich wartości (bez braków danych) zależnej zmiennej jakościowej (nominalnej, porządkowej) albo nie są zdefiniowane dla żadnych z tych wartości. Niektóre funkcje są niedostępne, chyba że etykiety wartości istnieją dla co najmniej dwóch wartości bez braków danych zależnej zmiennej jakościowej. Jeśli co najmniej dwie wartości bez braków danych mają zdefiniowane etykiety wartości, wszelkie obserwacje z innymi wartościami, które nie mają etykiet, są wykluczane z analizy.

W celu ułatwienia definiowania zarówno poziomu pomiaru, jak i etykiet wartości, można użyć opcji Zdefiniuj właściwości zmiennych .

Uzyskiwanie drzew decyzyjnych

Ta funkcja wymaga opcji Decision Trees.

Z menu wybierz:
Analiza > Klasyfikuj > Drzewo ...
Wybierz zmienną zależną.
Wybierz co najmniej jedną zmienną niezależną.
Wybierz metodę budowy.

Opcjonalnie można wykonać następujące czynności:

Zmień poziom pomiaru dla dowolnej zmiennej z listy źródeł.
Wymuś wprowadzenie do modelu pierwszej zmiennej z listy niezależnych zmiennych jako pierwszej zmiennej podzielonej.
Wybierz zmienną wpływu, która definiuje stopień wpływu obserwacji na proces wzrostu drzewa. Obserwacje z mniejszą wartością wpływu mają mniejszy wpływ, obserwacje z większą wartością wpływu mają większy wpływ. Zmienna wpływu musi być dodatnia.
Przeprowadź walidację drzewa.
Dostosuj kryterium wzrostu drzewa.
Zapisz numery węzłów końcowych, wartości przewidywane oraz przewidywane prawdopodobieństwa jako zmienne.
Zapisz model w formacie XML (PMML).

Zmienne z nieznanym poziomem pomiaru

Alert poziomu pomiaru wyświetla się, gdy poziom pomiaru dla jednej lub większej ilości zmiennych w zbiorze danych jest nieznany. Ponieważ poziom pomiaru wpływa na wyliczenie wyników dla tej procedury, wszystkie zmienne muszą mieć zdefiniowany poziom pomiaru.

Skanowanie danych. Odczytuje dane w aktywnym zbiorze danych i przypisuje domyślny poziom pomiaru do wszystkich zmiennych, które mają aktualnie nieznany poziom pomiaru. Jeśli zbiór danych jest duży, może to zająć trochę czasu.

Przypisz ręcznie. Otwiera okno dialogowe, które zestawia wszystkie zmienne z nieznanym poziomem pomiaru. Można użyć tego okna dialogowego do przypisania poziomu pomiaru do tych zmiennych. Można również przypisać poziom pomiaru w Widoku zmiennych Edytora danych.

Ponieważ poziom pomiaru jest ważny dla tej procedury, nie można wejść do tego okna dialogowego w celu uruchomienia tej procedury, dopóki wszystkie zmienne nie będą miały zdefiniowanego poziomu pomiaru.

Zmienianie poziomu pomiaru

Kliknij prawym przyciskiem myszy zmienną na liście źródłowej.
Z menu kontekstowego wybierz poziom pomiaru.

Spowoduje to tymczasową zmianę poziomu pomiaru i umożliwi użycie go w procedurze drzewa decyzyjnego.

Aby trwale zmienić poziom pomiaru dla zmiennej, patrz Poziom pomiaru zmiennej.

Metody budowy

Dostępne metody budowy są następujące:

CHAID. Automatyczna detekcja interakcji chi-kwadrat. Na każdym etapie funkcja CHAID wybiera niezależną zmienną (predyktor), która ma najsilniejszą interakcję z niezależną zmienną. Jeśli w odniesieniu do zmiennej niezależnej kategorie nie różnią się znacznie od siebie, to Kategorie wszystkich predyktorów są połączone.

Wyczerpujący CHAID. Zmodyfikowany CHAID badający wszystkie możliwe podziały wszystkich predyktorów.

CRT. Drzewa klasyfikacji i regresji. Ze względu na zmienną zależną CRT dzieli dane na jak najbardziej jednorodne segmenty. Węzeł końcowy, w którym wszystkie obserwacje dla zmiennej zależnej mają identyczne wartości jest jednorodnym „czystym" węzłem.

QUEST. Szybkie, nieobciążone, wydajne drzewo statystyczne. Metoda ta jest szybka i jednocześnie zapobiega odchyleniom innych metod na rzecz predyktorów z wieloma kategoriami. Metody SNWDS można używać, tylko gdy zależna zmienna jest normalna.

W przypadku każdej metody istnieją zalety i ograniczenia, a wśród nich następujące:

Tabela 2. Cechy metody budowy
Funkcja	CHAID*	CRT	QUEST
Oparta o Chi-kwadrat**	X
Zastępowanie zmiennych niezależnych (predyktorów)		X	X
Obcinanie drzewa		X	X
Wielokrotny podział węzłów	X
Binarny podział węzłów		X	X
Zmienne wpływu	X	X
Prawdopodobieństwa a priori		X	X
Koszty błędnej klasyfikacji	X	X	X
Szybkie obliczenie	X		X

*Obejmuje wyczerpujący CHAID

**QUEST używa także miary chi-kwadrat względem nominalnych zmiennych niezależnych.