Two-Step-Clusteranalyse

Bei der Two-Step-Clusteranalyse handelt es sich um eine explorative Prozedur zum Ermitteln von natürlichen Gruppierungen (Clustern) innerhalb eines Datasets, die andernfalls nicht erkennbar wären. Der von der Prozedur verwendete Algorithmus verfügt über vielfältige nützliche Funktionen, durch die er sich von traditionellen Clustermethoden unterscheidet.

  • Verarbeitung von kategorialen und stetigen Variablen. Die Annahme der Unabhängigkeit der Variablen ermöglicht eine kombinierte multinomiale Normalverteilung für kategoriale und stetige Variablen.
  • Automatische Auswahl der Clusteranzahl. Durch den Vergleich der Werte eines Modellauswahlkriteriums in verschiedenen Clusteranalysen kann die optimale Anzahl der Cluster von der Prozedur automatisch bestimmt werden.
  • Skalierbarkeit: Durch das Zusammenfassen der Datensätze in einem Clusterfunktionsbaum (CF-Baum) können mit dem Two-Step-Algorithmus sehr große Datendateien analysiert werden.

Beispiel. Einzelhandels-und Konsumentenproduktfirmen wenden die Clustertechniken regelmäßig auf Daten an, die die Kaufgewohnheiten ihrer Kunden, Geschlecht, Alter, Einkommensniveau usw. beschreiben. Ziel der Analyse ist eine Ausrichtung der unternehmenseigenen Marketing- und Produktentwicklungsstrategien auf einzelne Konsumentengruppen, um Umsatzsteigerungen und Markentreue zu erreichen.

Distanzmaß. Mit dieser Auswahl legen Sie fest, wie Ähnlichkeiten zwischen zwei Clustern verarbeitet werden.

  • Log-Likelihood. Mit dem Likelihood-Maß wird eine Wahrscheinlichkeitsverteilung für die Variablen vorgenommen. Bei stetigen Variablen wird von einer Normalverteilung, bei kategorialen Variablen von einer multinomialen Verteilung ausgegangen. Bei allen Variablen wird davon ausgegangen, dass sie unabhängig sind.
  • Euklidisch. Das Euklidische Maß bezeichnet die "gerade" Distanz zwischen zwei Clustern. Es kann nur dann verwendet werden, wenn es sich bei sämtlichen Variablen um stetige Variablen handelt.

Anzahl der Cluster. Mit dieser Auswahl können Sie angeben, wie die Anzahl der Cluster bestimmt werden soll.

  • Automatisch ermitteln. Mit dieser Prozedur wird das im Gruppenfeld "Clusterkriterium" angegebene Kriterium verwendet, um automatisch die "beste" Anzahl der Cluster zu ermitteln. Sie haben die Möglichkeit, eine positive Ganzzahl für die Höchstzahl der Cluster anzugeben, die von der Prozedur berücksichtigt werden sollen.
  • Feste Anzahl angeben. Ermöglicht das Festlegen der Anzahl der Cluster für die Analyse. Geben Sie eine positive ganze Zahl ein.

Anzahl stetiger Variablen. Dieses Gruppenfeld enthält eine Zusammenfassung der Standardeinstellungen, die im Dialogfeld "Optionen" für stetige Variablen vorgenommen wurden. Weitere Informationen finden Sie in TwoStep Cluster Analysis Options .

Clusterkriterium. Mit dieser Auswahl legen Sie fest, wie die Anzahl der Cluster vom automatischen Clusteralgorithmus bestimmt wird. Angegeben werden kann entweder das Bayes-Informationskriterium (BIC) oder das Akaike-Informationskriterium (AIC).

Erläuterungen der Daten für Two-Step-Clusteranalyse

Daten. Mit dieser Prozedur können sowohl stetige als auch kategoriale Variablen analysiert werden. Die Fälle bilden dabei die Objekte, die gruppiert werden sollen, während die Variablen die Attribute darstellen, auf deren Grundlage die Gruppierung erfolgt.

Fallreihenfolge. Beachten Sie, dass der Clusterfunktionsbaum und die endgültige Lösung gegebenenfalls von der Reihenfolge der Fälle abhängig sein können. Um die Auswirkungen der Reihenfolge zu minimieren, mischen Sie die Fälle in zufälliger Reihenfolge. Prüfen Sie daher die Stabilität einer bestimmten Lösung, indem Sie verschiedene Lösungen abrufen, bei denen die Fälle in einer unterschiedlichen, zufällig ausgewählten Reihenfolge sortiert sind. In schwierigen Situationen mit äußerst umfangreichen Dateien führen Sie stattdessen mehrere Läufe aus, bei denen eine Stichprobe der Fälle in unterschiedlicher, zufälliger Reihenfolge angeordnet ist.

Annahmen. Das Likelihood-Distanzmaß geht davon aus, dass die Variablen im Clustermodell unabhängig sind. Außerdem wird für stetige Variablen eine Normal- bzw. Gauß-Verteilung und für kategoriale Variable eine multinomiale Verteilung vorausgesetzt. Empirische interne Tests zeigen, dass die Prozedur wenig anfällig gegenüber Verletzungen hinsichtlich der Unabhängigkeitsannahme und der Verteilungsannahme ist. Dennoch sollten Sie darauf achten, wie genau diese Voraussetzungen erfüllt sind.

Mit der Prozedur Bivariate Korrelationen können Sie die Unabhängigkeit von zwei stetigen Variablen testen. Mit der Prozedur Kreuztabellen können Sie die Unabhängigkeit von zwei kategorialen Variablen testen. Mit der Prozedur Mittelwerte können Sie die Unabhängigkeit zwischen einer stetigen Variablen und einer kategorialen Variablen testen. Mit der Prozedur Explorative Datenanalyse können Sie die Normalverteilung einer stetigen Variablen testen. Mit der Prozedur Chi-Quadrat-Test können Sie testen, ob eine kategoriale Variable eine angegebene multinomiale Verteilung aufweist.

So lassen Sie eine Two-Step-Clusteranalyse berechnen:

Für diese Funktion ist die Option "Statistics Base" erforderlich.

  1. Wählen Sie in den Menüs Folgendes aus:

    Analysieren > Klassifizieren > TwoStep Cluster ...

  2. Wählen Sie mindestens eine kategoriale oder stetige Variable aus.

Die folgenden Optionen sind verfügbar:

  • Passen Sie die Kriterien für die Erstellung der Cluster an.
  • Wählen Sie Einstellungen für die Rauschverarbeitung, Speicherzuweisung, Variablenstandardisierung und Eingabe des Clustermodells aus.
  • Fordern Sie die Ausgabe des Modellviewers an.
  • Speichern Sie Modellergebnisse in der Arbeitsdatei oder in einer externen XML-Datei.

Mit dieser Prozedur wird TWOSTEP CLUSTER -Befehlssyntax eingefügt.