Screening von Prädiktoren (Merkmalauswahl)

Mit dem Merkmalauswahlknoten können Sie die Felder identifizieren, denen bei der Vorhersage eines bestimmten Ergebnisses die größte Bedeutung zukommt. Aus einem Set von hunderten oder sogar tausenden von Prädiktoren führt der Merkmalauswahlknoten ein Screening, eine Rangeinordnung und eine Auswahl der Prädiktoren durch, die voraussichtlich am wichtigsten sind. Letztlich können Sie so ein schnelleres und effizienteres Modell erreichen, ein Modell, das weniger Prädiktoren verwendet, schneller ausgeführt werden kann und leichter verständlich ist.

Bei den in diesem Beispiel verwendeten Daten handelt es sich um ein Data Warehouse für eine hypothetische Telefongesellschaft. Sie enthalten Informationen zu Reaktionen auf eine spezielle Werbeaktion, die an 5.000 Kunden des Unternehmens gerichtet war. Die Daten enthalten eine Vielzahl von Feldern, darunter das Alter der Kunden, ihr Beschäftigungsverhältnis, ihr Einkommen und statistische Daten zu ihrer Telefonnutzung. Drei "Ziel"-Felder zeigen jeweils an, ob der Kunde auf die drei Angebote reagierte oder nicht. Das Unternehmen möchte anhand dieser Daten vorhersagen, welche Kunden mit der größten Wahrscheinlichkeit auf künftige ähnliche Angebote reagieren.

In diesem Beispiel wird ein Stream namens featureselection.str verwendet, der Bezug auf die Datendatei customer_dbase.sav nimmt. Die Dateien stehen im Verzeichnis Demos der IBM® SPSS Modeler-Installation zur Verfügung. Der Zugriff über die Programmgruppe "IBM SPSS Modeler" ist im Windows-Startmenü möglich. Die Datei featureselection.str befindet sich im Verzeichnis streams.

Dieses Beispiel konzentriert sich auf nur eines der Angebote als Ziel. Mithilfe des CHAID-Baumerstellungsknotens wird ein Modell entwickelt, das beschreibt, welche Kunden mit der größten Wahrscheinlichkeit auf die Werbeaktion reagieren. Es werden zwei Ansätze gegenübergestellt:

  • Ohne Merkmalauswahl. Alle Prädiktorfelder im Dataset dienen als Eingaben für den CHAID-Baum.
  • Mit Merkmalauswahl. Der Merkmalauswahlknoten dient zur Auswahl der besten 10 Prädiktoren. Diese werden dann als Eingabe für den CHAID-Baum verwendet.

Wenn wir die zwei resultierenden Baummodelle vergleichen, sehen wir die effektiven Ergebnisse, die mithilfe der Merkmalauswahl erzielt werden können.

Weiter