Kostenmatrix

Wenn alle Fehlklassifikationen standardmäßig die gleiche Wertigkeit besitzen würden, wären weniger häufig auftretende Zielwerte (Klassenbezeichnungen) nicht privilegiert. Sie würden dann möglicherweise ein Modell erhalten, das zwar eine sehr niedrige Gesamtfehlerrate aufweist, diese weniger häufig auftretenden Zielwerte würden aber falsch klassifiziert. Mit dem Ziel, die Klassifikationsentscheidungsbäume zu verbessern und bessere Modelle mit diesen ungleich verteilten Daten zu erhalten, generiert der auf heuristischen Verfahren basierende Baum automatisch eine geeignete Kostenmatrix, um beim Trainieren eines Entscheidungsbaums eine ausgeglichene Verteilung der Klassenbezeichnungen zu erreichen. Sie können die Kostenmatrix auch manuell anpassen.

Eine Kostenmatrix (Fehlermatrix) ist außerdem nützlich, wenn bestimmte Klassifikationsfehler schwerer wiegen als andere. Die Mining-Funktion für Klassifikation versucht Klassifikationsfehler mit einer hohen Fehlerwertigkeit zu vermeiden. Bei Vermeidung 'kostenintensiver' Klassifikationsfehler muss allerdings eine höhere Anzahl 'günstiger' Klassifikationsfehler in Kauf genommen werden. So erhöht sich die Anzahl Fehler, während die Kosten für die Fehler im Vergleich zu derselben Klassifikation ohne Kostenmatrix sinken. Für die Wertigkeit muss ein Wert größer-gleich null angegeben werden. Die Standardgewichtung ist 1. Die Diagonale der Kostenmatrix muss null sein.

Durch Angabe einer Kostenmatrix können Sie Fehlklassifikationen Fehlerwertigkeiten zuordnen. In der folgenden Tabelle wird eine Kostenmatrix mithilfe eines Beispiels veranschaulicht. In diesem Beispiel werden folgende Klassenbezeichnungen verwendet:

Hohes Risiko
Geringes Risiko
Sicher

Die Fehlergewichtung für die Klassifizierung von Kundendaten als Safe, wenn es sich tatsächlich um High riskhandelt, beträgt 7.0. Die Fehlklassifizierung von Low risk als Safe hat nur eine Fehlergewichtung von 3.0.

Tabelle 1. Beispiel einer Kostenmatrixtabelle
Tatsächliche vorhergesagte Wertigkeit
`High risk` `Safe`	7,0
`Low risk` `Safe`	3,0

Beispiel:

Ihre Eingabedaten enthalten möglicherweise Informationen zu Kunden. Von diesen Kunden sind 99 % zufrieden und 1 % nicht zufrieden. Möglicherweise möchten Sie ein Modell erstellen, das vorhersagt, ob ein Kunde zufrieden ist, aber dazu soll nur ein kleiner Trainingssatz mit Daten verwendet werden. Bei Verwendung eines Satzes mit einer nur geringen Anzahl Trainingsdaten erhalten Sie jedoch unter Umständen einen degenerierten geprunten Baum. Dieser Baum könnte dann aus nur einem einzigen Knoten bestehen, der vorhersagt, dass alle Kunden zufrieden sind. Dieses Modell erweckt aufgrund der niedrigen Fehlerrate (1 %) den Eindruck, von hoher Qualität zu sein. Damit Sie jedoch in Erfahrung bringen können, welche Attributwerte einen nicht zufriedenen Kunden beschreiben, ist ein anderes Vorgehen erforderlich.

Dazu müsste beispielsweise festgelegt werden, dass die Fehlklassifikation eines Kunden, der nicht zufrieden ist, als zehn Mal so teuer eingestuft wird als die Fehlklassifikation eines Kunden, der zufrieden ist.