Was ist Bagging?

Bagging, auch bekannt als Bootstrap-Aggregation, ist die allgemein verwendete Ensemble-Lernmethode, um die Varianz innerhalb eines verrauschten Datasets zu reduzieren. Beim Bagging wird eine Zufallsstichprobe von Daten in einem Trainingsset mit Ersetzen ausgewählt – das bedeutet, dass die einzelnen Datenpunkte mehr als einmal ausgewählt werden können. Nachdem mehrere Datenstichproben generiert wurden, werden diese Modelle unabhängig voneinander trainiert, und je nach Art der Aufgabe – z. B. Regression oder Klassifizierung – ergibt der Durchschnitt oder die Mehrheit dieser Vorhersagen eine genauere Schätzung.

Der Random-Forest-Algorithmus ist eine Erweiterung der Bagging-Methode, die sowohl Bagging als auch die Zufälligkeit von Merkmalen verwendet, um einen unkorrelierten Entscheidungsbaum-Forest zu erstellen.

Ensemblelernen

Ensemblelernen verleiht der Idee der „Schwarmintelligenz“ Glaubwürdigkeit, die besagt, dass die Entscheidungsfindung einer größeren Gruppe von Menschen in der Regel besser ist als die eines einzelnen Experten. In ähnlicher Weise bezieht sich das Ensemble-Lernen auf eine Gruppe (oder ein Ensemble) von Basislernern oder Modellen, die gemeinsam arbeiten, um eine bessere Endvorhersage zu erreichen. Ein einzelnes Modell, auch bekannt als Basis- oder schwacher Lerner, kann aufgrund einer hohen Varianz oder einer hohen Verzerrung individuell nicht gut abschneiden. Wenn Schwach-Lerner jedoch aggregiert werden, können sie einen Stark-Lerner bilden, da ihre Kombination Verzerrungen oder Varianzen reduziert und zu einer besseren Modellleistung führt.

Ensemblemethoden werden häufig anhand von Entscheidungsbäumen dargestellt, da dieser Algorithmus zu einer Überanpassung (hohe Varianz und geringe Verzerrung) neigen kann, wenn er nicht beschnitten wurde. Er kann auch zu einer Unteranpassung (niedrige Varianz und hohe Verzerrung) tendieren, wenn er sehr klein ist, wie beispielsweise ein Entscheidungsstumpf, d. h. ein Entscheidungsbaum mit einer Ebene. Ein Algorithmus kann neue Datasets nicht gut verallgemeinern, wenn der Trainingssatz über- bzw. unterangepasst ist. Daher werden Ensemblemethoden verwendet, um diesem Verhalten entgegenzuwirken und eine Verallgemeinerung des Modells auf neue Datasets zu ermöglichen. Während Entscheidungsbäume eine hohe Varianz oder Verzerrung aufweisen können, ist es erwähnenswert, dass dies nicht die einzige Modellierungstechnik ist, die das Ensemblelernen nutzt, um den optimalen Punkt des Kompromisses zwischen Verzerrung und Varianz zu finden.

Bagging vs. Boosting

Bagging und Boosting sind zwei Hauptarten von Ensemblelernmethoden. Wie in dieser Studie (PDF, 248 KB) (Link befindet sich außerhalb von ibm.com) aufgezeigt, besteht der Hauptunterschied zwischen diesen Lernmethoden in der Art und Weise, wie sie trainiert werden. Beim Bagging werden schwache Lerner parallel trainiert, beim Boosting lernen sie nacheinander. Dies bedeutet, dass eine Serie von Modellen konstruiert wird und mit jeder neuen Modelliteration die Gewichtungen der falsch klassifizierten Daten im früheren Modell erhöht werden. Diese Umverteilung der Gewichtung hilft dem Algorithmus, die Parameter zu identifizieren, auf die er sich konzentrieren muss, um seine Leistung zu verbessern. AdaBoost, was für „adaptativer Boosting-Algorithmus" steht, ist einer der beliebtesten Boosting-Algorithmen, da er einer der ersten seiner Art war. Andere Arten von Boosting-Algorithmen schließen XGBoost, GradientBoost und BrownBoost ein.

Ein weiterer Unterschied zwischen Bagging und Boosting sind die Szenarien, in denen sie eingesetzt werden. Zum Beispiel werden Bagging-Methoden typischerweise auf schwache Lerner mit hoher Varianz und geringer Verzerrung angewendet und Boosting-Methoden bei geringer Varianz und hoher Verzerrung.

So funktioniert Bagging

1996 führte Leo Breiman (PDF, 829 KB) (Link befindet sich außerhalb von ibm.com) den Bagging-Algorithmus ein, der drei grundlegende Schritte umfasst:

Bootstrapping: Bagging nutzt Bootstrapping zur Stichprobenentnahme, um verschiedene Proben zu erzeugen. Diese Resampling-Methode generiert verschiedene Teilmengen des Trainingsdatasets, indem Datenpunkte nach dem Zufallsprinzip und zum Ersetzen ausgewählt werden. Das bedeutet, dass Sie jedes Mal, wenn Sie einen Datenpunkt aus dem Trainingsdataset auswählen, dieselbe Instanz mehrmals auswählen können. Als Ergebnis wird ein Wert/eine Instanz zweimal (oder mehr) in einer Stichprobe wiederholt.
Paralleles Training: Diese Bootstrapping-Stichproben werden dann unabhängig und parallel mit schwachen oder Basis-Lernern trainiert.
Aggregation: Schließlich wird je nach Aufgabe (z. B. Regression oder Klassifizierung) ein Durchschnitt oder eine Mehrheit der Vorhersagen verwendet, um eine präzisere Schätzung zu berechnen. Im Falle der Regression wird ein Mittelwert aller von den einzelnen Klassifikatoren vorhergesagten Outputs ermittelt; dies wird als Soft-Voting bezeichnet. Bei Klassifizierungsproblemen wird die Klasse mit der größten Anzahl von Stimmen (Votes) akzeptiert; dies wird als Hard-Voting oder Majority-Voting bezeichnet.

Vorteile und Herausforderungen des Baggings

Es gibt eine Reihe von wichtigen Vorteilen und Herausforderungen bei der Bagging-Methode, wenn sie für Klassifizierungs- oder Regressionsprobleme verwendet wird. Die wichtigen Vorteile von Bagging umfassen:

Einfache Implementierung: Python-Bibliotheken wie scikit-learn (auch bekannt als sklearn) machen es einfach, die Vorhersagen von Basis-Lernern oder -Schätzern zu kombinieren, um die Modellleistung zu verbessern. Ihre Dokumentation (Link befindet sich außerhalb von IBM) enthält die verfügbaren Module, die Sie für Ihre Modelloptimierung nutzen können.
Reduzierung von Varianz: Bagging kann die Varianz eines Lernalgorithmus reduzieren. Dies ist besonders hilfreich bei hochdimensionalen Daten, bei denen fehlende Werte zu einer höheren Varianz führen können, was sie anfälliger für Überanpassungen macht und eine genaue Verallgemeinerung auf neue Datensätze verhindert.

Wichtigen Herausforderungen des Baggings umfassen:

Verlust der Interpretierbarkeit: Es ist schwierig, durch Bagging sehr genaue Geschäftseinblicke zu gewinnen, da der Durchschnitt über alle Vorhersagen hinweg gebildet wird. Während die Ausgabe präziser ist als jeder einzelne Datenpunkt, könnte ein genauerer oder vollständigerer Datensatz auch innerhalb eines einzelnen Klassifizierungs- oder Regressionsmodells zu mehr Präzision führen.
Rechnerisch kostenintensiv: Bagging wird langsamer und intensiver, je höher die Anzahl der Iterationen. Daher ist es für Echtzeit-Anwendungen nicht gut geeignet. Geclusterte Systeme oder eine große Anzahl von Prozessorkernen sind ideal für die schnelle Erstellung von Bagged-Ensembles auf großen Testsets.
Weniger flexibel: Bagging funktioniert als Verfahren besonders gut mit weniger stabilen Algorithmen. Für stabile Algorithmen oder jene mit hoher Verzerrung bietet Bagging nicht so viele Vorteil, da es weniger Variation innerhalb des Modell-Datensets gibt. Wie im Praktischen Leitfaden zum maschinellen Lernen (Link befindet sich außerhalb von IBM) erwähnt, „gibt Bagging eines linearen Regressionsmodells effektiv nur die ursprünglichen Vorhersagen für ausreichend große b zurück“.

Anwendungen von Bagging

Das Bagging-Verfahren wird in einer Vielzahl von Branchen eingesetzt und liefert Einblicke, die sowohl einen realen Nutzen als auch interessante Perspektiven bieten, wie z. B. in den GRAMMY-Debatten mit Watson. Einige der Anwendungsfälle umfassen:

Gesundheitsversorgung: Bagging wurde für medizinische Datenvorhersagen verwendet. Zum Beispiel zeigt diese Forschungsarbeit (PDF, 2,8 MB) (Link befindet sich außerhalb von ibm.com), dass Ensemble-Methoden für eine Reihe von bioinformatischen Problemen verwendet wurden, wie z. B. Gen- und/oder Proteinselektion, um ein bestimmtes Merkmal von Interesse zu identifizieren. Konkret befasst sich diese Forschungsarbeit (Link befindet sich außerhalb von ibm.com) mit der Anwendung, den Eintritt von Diabetes basierend auf verschiedenen Risikoprädiktoren vorherzusagen.
IT: Bagging kann auch die Präzision und Genauigkeit in IT-Systemen verbessern, z. B. in Systemen zur Erkennung von unbefugtem Zugriff. Diese Forschungsarbeit (Link befindet sich außerhalb von ibm.com) befasst sich damit, wie Bagging die Genauigkeit der Erkennung von Netzangriffen verbessern und Anzahl der Fehlalarme reduzieren kann.
Umgebung: Ensemble-Methoden wie Bagging wurden in dem Bereich des Remote-Sensing angewendet. Diese Forschungsarbeit (Link befindet sich außerhalb von ibm.com) zeigt, wie Bagging verwendet wurde, um Arten von Feuchtgebieten einer Küstenlandschaft zu kartieren.
Finanzen: Bagging wurde auch mit Deep-Learning-Modellen in der Finanzbranche genutzt, um kritische Aufgaben zu automatisieren, einschließlich Betrugserkennung, Kreditrisikobewertungen und Problemen mit der Optionspreisgestaltung. Diese Forschungsarbeit (Link befindet sich außerhalb von ibm.com) zeigt, wie Bagging neben anderen maschinellen Lerntechniken genutzt wurde, um das Kreditausfallrisiko zu bewerten. Diese Studie (Link befindet sich außerhalb von ibm.com) zeigt, wie Bagging dazu beiträgt, Risiken zu minimieren, indem Kreditkartenbetrug bei Banken und Finanzinstituten verhindert wird.

Zugehörige Lösungen

IBM SPSS Modeler

IBM SPSS Modeler bietet Vorhersageanalysen, mit denen Sie Datenmuster erkennen, Vorhersagegenauigkeit erreichen und die Entscheidungsfindung verbessern können.

IBM SPSS Modeler erkunden

Watson Studio

Erstellen und skalieren Sie vertrauenswürdige KI in jeder Cloud. Automatisieren Sie den KI-Lebenszyklus für ModelOps.

Watson Studio erkunden

Bagging vs. Boosting

Erkunden Sie die IBM Data Science Community, um weitere Informationen zu der Datenwissenschaft und dem maschinellen Lernen zu erfahren.

IBM Data Science Community erkunden

Machen Sie den nächsten Schritt

IBM Lösungen unterstützen durchgängig den maschinellen Lernzyklus. Erfahren Sie, wie IBM Datenmodellierungstools wie IBM SPSS Modeler und Watson Studio Sie bei der Erstellung verschiedener Modelle und deren Feinabstimmung auf Genauigkeit unterstützen können, um Ihre Vorhersagen und nachfolgende Datenanalysen zu verbessern. Melden Sie sich für eine IBMid an und werden Sie Mitglied bei der IBM Data Science Community, um weitere Informationen zu der Datenwissenschaft und dem maschinellen Lernen zu erhalten.

Werden Sie noch heute Mitglied der IBM Data Science Community