Was ist logistische Regression?

Die logistische Regression schätzt die Wahrscheinlichkeit des Eintretens eines Ereignisses, wie z. B. gewählt oder nicht gewählt zu haben, auf der Grundlage eines gegebenen Datensatzes unabhängiger Variablen.

Diese Art von statistischem Modell (auch Logit-Modell genannt) wird häufig für Klassifizierungen und prädiktive Analysen verwendet. Da es sich bei dem Ergebnis um eine Wahrscheinlichkeit handelt, ist die abhängige Variable auf einen Wert zwischen 0 und 1 begrenzt. Bei der logistischen Regression wird eine Logit-Transformation auf die Wahrscheinlichkeit angewandt, d. h. die Wahrscheinlichkeit des Erfolgs geteilt durch die Wahrscheinlichkeit des Misserfolgs. Dies wird auch als Log-Odds oder natürlicher Logarithmus der Wahrscheinlichkeit bezeichnet, und diese logistische Funktion wird durch die folgenden Formeln dargestellt:

Logit(pi) = 1/(1+ exp(-pi))

ln(pi/(1-pi)) = Beta_0 + Beta_1*X_1 + … + B_k*K_k

In dieser logistischen Regressionsgleichung ist logit(pi) die abhängige oder Antwortvariable und x ist die unabhängige Variable. Der Beta-Parameter oder -Koeffizient in diesem Modell wird in der Regel mithilfe der Maximum-Likelihood-Schätzung (MLE) geschätzt. Diese Methode testet verschiedene Beta-Werte durch mehrere Iterationen, um die beste Anpassung der statistischen Werte zu finden. Alle diese Iterationen ergeben die Log-Likelihood-Funktion, wobei die logistische Regression versucht, diese Funktion zu maximieren, um die beste Parameterschätzung zu finden. Sobald der optimale Koeffizient (oder die optimalen Koeffizienten, wenn es mehr als eine unabhängige Variable gibt) gefunden ist, können die bedingten Wahrscheinlichkeiten für jede Beobachtung berechnet, protokolliert und summiert werden, um eine vorhergesagte Wahrscheinlichkeit zu erhalten. Bei einer binären Klassifizierung bedeutet eine Wahrscheinlichkeit von weniger als 0,5 den Wert 0, während eine Wahrscheinlichkeit von mehr als 0 den Wert 1 bedeutet. Nachdem das Modell berechnet wurde, ist es am besten, zu bewerten, wie gut das Modell die abhängige Variable vorhersagt, was als Anpassungsgüte bezeichnet wird. Der Hosmer-Lemeshow-Test ist eine beliebte Methode zur Bewertung der Passgenauigkeit des Modells.

Warum KI-Governance eine geschäftliche Notwendigkeit für die Skalierung von KI in Unternehmen ist

Erfahren Sie mehr über die Hindernisse bei der Einführung von KI, insbesondere über das Fehlen von Lösungen für KI-Governance und -Risikomanagement.

Ähnliche Inhalte

Registrieren Sie sich für das E-Book zum Thema Presto

Interpretation der logistischen Regression

Log-Odds können in einer Datenanalyse auf Basis der logistischen Regression schwierig zu interpretieren sein. Daher ist es üblich, die Beta-Schätzungen zu potenzieren, um die Ergebnisse in ein Chancenverhältnis (Odds Ratio, OR) umzuwandeln, was die Interpretation der Ergebnisse erleichtert. Das OR gibt die Wahrscheinlichkeit an, dass ein Ergebnis bei einem bestimmten Ereignis eintritt, verglichen mit der Wahrscheinlichkeit, dass das Ergebnis ohne dieses Ereignis eintritt. Wenn das OR größer als 1 ist, dann ist das Ereignis mit einer höheren Wahrscheinlichkeit verbunden, ein bestimmtes Ergebnis zu erzeugen. Ist das OR dagegen kleiner als 1, dann ist das Ereignis mit einer geringeren Wahrscheinlichkeit für das Eintreten dieses Ergebnisses verbunden. Ausgehend von der obigen Gleichung lässt sich ein Chancenverhältnis wie folgt interpretieren: Die Wahrscheinlichkeit eines Erfolgs ändert sich um das exp(cB_1)-fache für jede c-Einheit, um die sich x erhöht. Nehmen wir als Beispiel an, dass wir die Wahrscheinlichkeit des Überlebens auf der Titanic schätzen sollen, wenn die Person männlich ist, und das Wahrscheinlichkeitsverhältnis für Männer 0,0810 beträgt. Wir würden das Chancenverhältnis so interpretieren, dass die Überlebenschancen von Männern im Vergleich zu Frauen um den Faktor 0,0810 sinken, wobei alle anderen Variablen konstant bleiben.

Whitepaper lesen

Lineare Regression vs. logistische Regression

Sowohl die lineare als auch die logistische Regression gehören zu den beliebtesten Modellen im Bereich Data Science. Open-Source-Tools wie Python und R machen die Berechnung dieser Modelle schnell und einfach.

Modelle der linearen Regression werden verwendet, um die Beziehung zwischen einer kontinuierlichen abhängigen Variable und einer oder mehreren unabhängigen Variablen zu ermitteln. Wenn es nur eine unabhängige Variable und eine abhängige Variable gibt, spricht man von einer einfachen linearen Regression. Wenn jedoch die Anzahl der unabhängigen Variablen zunimmt, spricht man von einer multiplen linearen Regression. Bei jeder Art von linearer Regression wird versucht, eine Linie der besten Anpassung durch eine Reihe von Datenpunkten zu zeichnen, die normalerweise mit der Methode der kleinsten Quadrate berechnet wird.

Ähnlich wie die lineare Regression wird auch die logistische Regression für die Schätzung der Beziehung zwischen einer abhängigen Variable und einer oder mehreren unabhängigen Variablen verwendet. Allerdings wird sie genutzt, um eine Vorhersage über eine kategoriale Variable im Vergleich zu einer kontinuierlichen Variable zu machen. Eine kategoriale Variable kann wahr oder falsch sein, ja oder nein, 1 oder 0, usw. Auch die Maßeinheit unterscheidet sich von der linearen Regression, da sie eine Wahrscheinlichkeit erzeugt. Die Logit-Funktion wandelt die S-Kurve jedoch in eine gerade Linie um.

Obwohl beide Modelle in der Regressionsanalyse verwendet werden, um Vorhersagen über zukünftige Ergebnisse zu machen, ist die lineare Regression in der Regel einfacher zu verstehen. Die lineare Regression erfordert auch keine so große Stichprobengröße wie die logistische Regression, die eine angemessene Stichprobe benötigt, um die Werte aller Antwortkategorien zu repräsentieren. Ohne eine größere, repräsentative Stichprobe hat das Modell möglicherweise nicht genügend statistische Aussagekraft, um einen signifikanten Effekt nachzuweisen.

Arten der logistischen Regression

Es gibt drei Arten von Modellen der logistischen Regression, die auf der Grundlage von kategorialen Antworten definiert sind.

Binäre logistische Regression: Bei diesem Ansatz ist die Antwort oder abhängige Variable dichotom, d. h. sie hat nur zwei mögliche Ergebnisse (z. B. 0 oder 1). Gängige Beispiele für die Verwendung dieser Methode sind die Vorhersage, ob es sich bei einer E-Mail um Spam handelt oder nicht oder ob ein Tumor bösartig oder gutartig ist. Innerhalb der logistischen Regression ist dies der am häufigsten verwendete Ansatz und ganz allgemein einer der häufigsten Klassifikatoren für die binäre Klassifizierung.
Multinomiale logistische Regression: Bei dieser Art von logistischem Regressionsmodell hat die abhängige Variable drei oder mehr mögliche Ergebnisse, wobei diese Werte jedoch keine bestimmte Reihenfolge haben. Filmstudios möchten zum Beispiel vorhersagen, welches Filmgenre ein Kinobesucher wahrscheinlich sehen wird, um ihre Filme effektiver zu vermarkten. Ein multinomiales logistisches Regressionsmodell kann dem Studio dabei helfen, die Stärke des Einflusses zu bestimmen, den die Faktoren Alter, Geschlecht und Beziehungsstatus einer Person auf die Art der von ihr bevorzugten Filme haben. Das Studio kann dann eine Werbekampagne für einen bestimmten Film auf eine Gruppe von Personen abstimmen, die diesen Film wahrscheinlich anschauen werden.
Ordinale logistische Regression: Diese Art von logistischem Regressionsmodell wird eingesetzt, wenn die Antwortvariable drei oder mehr mögliche Ergebnisse hat. In diesem Fall haben diese Werte jedoch eine bestimmte Reihenfolge. Beispiele für ordinale Antworten sind Benotungsskalen von A bis F oder Bewertungsskalen von 1 bis 5.

Ein Blick in den Kopf eines Data Scientists

Logistische Regression und maschinelles Lernen

Innerhalb des maschinellen Lernens gehört die logistische Regression zur Familie der überwachten maschinellen Lernmodelle. Sie wird auch als diskriminatives Modell betrachtet, was bedeutet, dass sie versucht, zwischen Klassen (oder Kategorien) zu unterscheiden. Im Gegensatz zu einem generativen Algorithmus (wie z. B. Naïve Bayes), kann er, wie der Name schon sagt, keine Informationen, wie z. B. ein Bild, der Klasse generieren, die er vorherzusagen versucht (z. B. ein Bild einer Katze).

Wir haben bereits erwähnt, wie die logistische Regression die Log-Likelihood-Funktion maximiert, um die Beta-Koeffizienten des Modells zu bestimmen. Dies ändert sich im Kontext des maschinellen Lernens leicht. Im Rahmen des maschinellen Lernens wird die negative Log-Likelihood als Verlustfunktion verwendet, wobei der Prozess des Gradientenabstiegs genutzt wird, um das globale Maximum zu finden. Dies ist nur ein anderer Weg, um zu den gleichen Schätzungen zu gelangen, wie oben beschrieben.

Die logistische Regression kann auch für eine Überanpassung anfällig sein, insbesondere wenn das Modell eine große Anzahl von Prädiktorvariablen enthält. In der Regel wird eine Regularisierung verwendet, um Parameter mit großen Koeffizienten zu bestrafen, wenn das Modell unter einer hohen Dimensionalität leidet.

Scikit-learn (Link befindet sich außerhalb von ibm.com) bietet eine wertvolle Dokumentation, um mehr über das maschinelle Lernmodell der logistischen Regression zu erfahren.

Anwendungsfälle der logistischen Regression

Logistische Regression wird häufig für Vorhersage- und Klassifizierungsprobleme verwendet. Zu diesen Anwendungsfällen gehören:

Betrugserkennung: Logistische Regressionsmodelle können Teams bei der Identifizierung von Datenanomalien helfen, die auf Betrug hindeuten. Bestimmte Verhaltensweisen oder Merkmale können eine höhere Assoziation mit betrügerischen Aktivitäten aufweisen, was insbesondere für Banken und andere Finanzinstitute beim Schutz ihrer Kunden hilfreich ist. Auch SaaS-Unternehmen haben mit der Einführung dieser Verfahren begonnen, um im Rahmen der Datenanalyse zur Unternehmensleistung gefälschte Benutzerkonten aus ihren Datensätzen zu entfernen.
Krankheitsvorhersage: In der Medizin kann dieser analytische Ansatz verwendet werden, um die Wahrscheinlichkeit von Krankheiten für eine bestimmte Bevölkerungsgruppe vorherzusagen. Gesundheitseinrichtungen können eine präventive Versorgung für Personen einrichten, die eine höhere Neigung zu bestimmten Krankheiten aufweisen.
Vorhersage der Fluktuation: Bestimmte Verhaltensweisen können auf Abwanderung in verschiedenen Funktionen eines Unternehmens hinweisen. Die Personal- und Managementteams möchten beispielsweise wissen, ob es im Unternehmen Leistungsträger gibt, bei denen die Gefahr einer Kündigung besteht. Diese Art von Erkenntnissen kann zu Gesprächen führen, um Problembereiche innerhalb des Unternehmens zu verstehen, wie z. B. die Kultur oder die Vergütung. Vielleicht möchte auch der Vertrieb erfahren, welche Kunden Gefahr laufen, ihr Geschäft zu verlagern. Dies kann die Teams zur Entwicklung einer Strategie veranlassen, um potenzielle Umsatzeinbußen zu vermeiden,

Beispiele für den Erfolg der logistischen Regression

Bewertung des Kreditrisikos

Die binäre logistische Regression kann Banken bei der Bewertung von Kreditrisiken helfen. Sehen Sie, wie Sie anhand einer Stichprobe ein logistisches Regressionsmodell erstellen und Kunden nach gutem und schlechtem Risiko klassifizieren können.

Steigerung der Gewinne in der Bankenbranche

Die First Tennessee Bank steigerte ihre Rentabilität durch den Einsatz von Predictive Analytics und Logistic mit IBM SPSS Software und erzielte Steigerungen von bis zu 600 Prozent bei Cross-Sale-Kampagnen. First Tennessee nutzt prädiktive und logistische Analysetechniken innerhalb einer Analyselösung, um einen besseren Einblick in all seine Daten zu erhalten.

Weiterführende Lösungen

watsonx.ai

Ergreifen Sie den nächsten Schritt und beginnen Sie mit der Operationalisierung und Skalierung von generativer KI und maschinellem Lernen für Ihr Geschäft.

watsonx.ai erkunden

IBM SPSS Modeler

Steigern Sie Ihren ROI über ein Data-Science-Tool mit Drag-and-Drop-Funktion.

SPSS Modeler erkunden

IBM Watson Studio

Erstellen und trainieren Sie KI- und Machine-Learning-Modelle, bereiten Sie Daten auf und analysieren Sie sie – alles in einer flexiblen, hybriden Cloud-Umgebung.

Watson Studio erkunden

Zugehörige Ressourcen

Implementierung der logistischen Regression von Grund auf in Python

Lernen Sie, wie Sie Ihr eigenes binäres Regressionsmodell trainieren können. Erfahren Sie, wie Sie Wahrscheinlichkeiten erzeugen und Beispiele klassifizieren und was unter dem Gradientenabstieg zu verstehen ist.

Logistische Regression mit TensorFlow durchführen

Erstellen Sie ein Jupyter Notebook, das Python-Code zur Definition der logistischen Regression enthält, und verwenden Sie dann TensorFlow, um diese zu implementieren.

Homomorphes Training von 30.000 logistischen Regressionsmodellen

IBM Forscher zeigen, dass mit dem homomorphen Verschlüsselungsschema CKKS eine große Anzahl logistischer Regressionsmodelle gleichzeitig trainiert werden kann.

Machen Sie den nächsten Schritt

Entwickeln Sie eine KI-Strategie für Ihr Unternehmen auf einer kollaborativen KI- und Datenplattform – IBM watsonx. Trainieren, validieren, optimieren und implementieren Sie KI-Modelle, um den Nutzen von KI mit vertrauenswürdigen Daten in Ihrem gesamten Unternehmen zu skalieren und zu beschleunigen.

watsonx erkunden

Buchen Sie eine Live-Demo