Was ist Bagging?

Was ist Bagging?

Bagging, auch bekannt als Bootstrap-Aggregation, ist eine Methode des Ensemble Learnings, die häufig zur Reduzierung der Varianz innerhalb eines verrauschten Datensatzes verwendet wird.

Beim Bagging wird eine zufällige Stichprobe von Daten in einem Trainingssatz mit Ersetzung ausgewählt. Das bedeutet, dass die einzelnen Datenpunkte mehr als einmal ausgewählt werden können. Nach der Erstellung mehrerer Datenstichproben werden diese schwachen Modelle dann unabhängig voneinander trainiert. Je nach Art der Aufgabe, z. B. Regression oder Klassifizierung, ergibt der Durchschnitt oder die Mehrheit dieser Vorhersagen eine genauere Schätzung. 

Hinweis: Der Random-Forest-Algorithmus gilt als Erweiterung der Bagging-Methode, die sowohl Bagging als auch die Randomisierung von Merkmalen verwendet, um einen unkorrelierten Wald von Decision Trees zu erstellen.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Ensemble-Lernen

Ensemble Learning unterstreicht die Überzeugung von der kollektiven Intelligenz. Das heißt, dass die Entscheidungsfindung einer größeren Gruppe in der Regel besser ist als die eines Einzelnen. Ähnlich bezieht sich das Ensemble-Lernen auf eine Gruppe (oder ein Ensemble) von Basis-Lernern oder -Modellen, die zusammen eine bessere Endprognose erzielen.

Ein einzelnes Modell, das auch als Basis- oder schwacher Lerner bezeichnet wird, kann aufgrund einer hohen Varianz oder einer großen Verzerrung individuell nicht gut abschneiden. Wenn jedoch schwache Lerner zusammengefasst werden, können sie einen starken Lerner bilden, weil ihre Kombination die Verzerrung oder Varianz reduziert, was wiederum zu einer besseren Modellleistung führt.

Ensemble-Methoden verwenden häufig Decision Trees zur Veranschaulichung. Wenn dieser Algorithmus nicht bereinigt wurde, kann er zu einer Überanpassung neigen und eine hohe Varianz und eine geringe Abweichung aufweisen. Umgekehrt kann er auch zu einer Unteranpassung mit geringer Varianz und hoher Verzerrung neigen, wenn er sehr klein ist. Dies gilt z. B. für einen Entscheidungsstumpf, also einen Decision Tree mit einer Ebene.

Bedenken Sie, dass ein Algorithmus, der sich in Bezug auf seinen Trainingssatz durch eine Über- oder Unteranpassung auszeichnet, nicht gut auf neue Datensätze verallgemeinert werden kann. Daher werden Ensemble-Methoden verwendet, um diesem Verhalten entgegenzuwirken und eine Verallgemeinerung des Modells auf neue Datensätze zu ermöglichen. Obwohl Decision Trees eine hohe Varianz oder eine hohe Verzerrung aufweisen können, ist dies nicht die einzige Modellierungstechnik, die das Ensemble Learning für die Suche nach dem „Sweet Spot“ innerhalb des Kompromisses zwischen Verzerrung und Varianz nutzt.

AI Academy

Nutzen Sie KI für Ihren Kundenservice

Erfahren Sie, wie der Einsatz von generativer KI mit einer nahtloseren Erfahrung die Kundenzufriedenheit erhöht und die Produktivität des Unternehmens in diesen drei Schlüsselbereichen steigert: Self-Service, Servicemitarbeiter und Abläufe im Contact Center.

Bagging vs. Boosting

Bagging und Boosting sind zwei Hauptarten von Ensemble-Learning-Methoden. Wie in dieser Studie hervorgehoben wird, besteht der Hauptunterschied zwischen diesen Lernmethoden in der Art, wie sie trainiert werden.

Beim Bagging werden die schwachen Lerner parallel trainiert, während sie beim Boosting sequentiell lernen. Das bedeutet, dass eine Reihe von Modellen erstellt wird und mit jeder neuen Modelliteration die Gewichte der falsch klassifizierten Daten im vorherigen Modell erhöht werden.

Diese Umverteilung der Gewichte hilft dem Algorithmus bei der Identifizierung der Parameter, auf die er sich zur Verbesserung seiner Leistung konzentrieren muss. AdaBoost, die Abkürzung für „adaptativer Boosting-Algorithmus“, ist einer der beliebtesten Boosting-Algorithmen, da er einer der ersten seiner Art war. Andere Arten von Boosting-Algorithmen sind XGBoost, GradientBoost und BrownBoost.

Ein weiterer Unterschied zwischen Bagging und Boosting sind die Szenarien, in denen sie eingesetzt werden. So kommen Bagging-Methoden in der Regel bei schwachen Lernern zum Einsatz, die eine hohe Varianz und eine geringe Verzerrung aufweisen. Boosting-Methoden werden dagegen bei geringer Varianz und hoher Verzerrung eingesetzt.

So funktioniert Bagging

Im Jahr 1996 führte Leo Breimanden Bagging-Algorithmus ein, der aus drei grundlegenden Schritten besteht:

  1. Bootstrapping: Bagging nutzt eine Bootstrapping-Technik zur Erzeugung verschiedener Stichproben. Diese Resampling-Methode erzeugt verschiedene Teilmengen des Trainingsdatensatzes. Dazu werden Datenpunkte zufällig und mit Ersetzung ausgewählt. Das bedeutet, dass Sie bei der Auswahl eines Datenpunkts aus dem Trainingsdatensatz dieselbe Instanz mehrfach auswählen können. Infolgedessen wiederholt sich ein Wert oder eine Instanz zweimal (oder häufiger) in einer Stichprobe.

  2. Paralleles Training: Diese Bootstrap-Stichproben werden dann unabhängig und parallel zueinander mit schwachen Lernern oder Basislernern trainiert.

  3. Aggregation: Schließlich wird je nach Aufgabe (d. h. Regression oder Klassifizierung) ein Durchschnitt oder eine Mehrheit der Vorhersagen herangezogen, um eine genauere Schätzung zu berechnen. Bei der Regression wird der Durchschnitt aller von den einzelnen Klassifikatoren vorhergesagten Ergebnisse gebildet. Dies wird als „Soft Voting“ bezeichnet. Bei Klassifizierungsproblemen wird die Klasse mit der höchsten Stimmenmehrheit akzeptiert, was wiederum als „Hard Voting“ oder „Majority Voting“ bezeichnet wird.

Vorteile und Herausforderungen des Bagging

Die Bagging-Methode bietet mehrere wesentliche Vorteile und Herausforderungen, wenn sie für Klassifizierungs- oder Regressionsprobleme verwendet wird. Zu den wichtigsten Vorteilen des Bagging gehören:

  • Leichte Implementierung: Python-Bibliotheken wie scikit-learn (auch bekannt als sklearn) machen es einfach, die Vorhersagen von Basislernern oder Schätzern zur Verbesserung der Modellleistung zu kombinieren. In der Dokumentationfinden Sie die verfügbaren Module, die Sie für Ihre Modelloptimierung verwenden können.

  • Reduzierung der Varianz: Bagging kann die Varianz innerhalb eines Lernalgorithmus reduzieren. Dies ist besonders bei stark dimensionierten Daten hilfreich, bei denen fehlende Werte zu einer höheren Varianz führen können. Dadurch wird der Algorithmus anfälliger für eine Überanpassung und verhindert eine genaue Generalisierung auf neue Datensätze.

Zu den wichtigsten Herausforderungen des Bagging gehören:

  • Verlust der Interpretierbarkeit: Aufgrund der Mittelwertbildung über alle Vorhersagen hinweg ist es schwierig, mittels Bagging sehr präzise Geschäftserkenntnisse zu gewinnen. Obwohl die Ausgabe präziser als jeder einzelne Datenpunkt ist, könnte ein genauerer oder vollständiger Datensatz auch mehr Präzision innerhalb eines einzelnen Klassifizierungs- oder Regressionsmodells erzielen.

  • Rechenintensivität: Bagging wird mit steigender Anzahl von Iterationen langsamer und intensiver. Daher ist es nicht gut für Echtzeitanwendungen geeignet. Cluster-Systeme oder eine große Anzahl von Prozessorkernen sind ideal für die schnelle Erstellung von Bagging-Ensembles auf großen Testsätzen.

  • Weniger Flexibilität: Als Technik funktioniert das Bagging besonders gut bei weniger stabilen Algorithmen. Algorithmen, die stabiler sind oder einer starken Verzerrung unterliegen, sind nicht so vorteilhaft, da es weniger Variationen innerhalb des Datensatzes des Modells gibt. In der „Praktischen Anleitung zum maschinellen Lernen“ heißt es: „Das Bagging eines linearen Regressionsmodells liefert im Grunde nur die ursprünglichen Vorhersagen für ein ausreichend großes b.”

Bagging und seine Anwendung

Die Bagging-Methode wird in vielen Branchen eingesetzt und bietet Einblicke in die reale Welt und interessante Perspektiven, wie z. B. bei den GRAMMY-Debatten mit Watson. Zu den wichtigsten Anwendungsfällen gehören:

  • Gesundheitswesen: Bagging wird zur Erstellung von Vorhersagen für medizinische Daten verwendet. So zeigen Studien,dass Ensemble-Methoden für eine Reihe von Problemen in der Bioinformatik verwendet werden, darunter die Auswahl von Genen und/oder Proteinen zur Identifizierung eines bestimmten Merkmals. Diese Studiebefasst sich insbesondere mit der Verwendung von Ensemble-Methoden zur Vorhersage des Ausbruchs von Diabetes auf der Grundlage verschiedener Risikofaktoren.

  • IT: Bagging kann auch die Präzision und Genauigkeit von IT-Systemen verbessern, z. B. von Systemen zur Netzwerküberwachung. In der Zwischenzeit untersucht diese Studie,wie Bagging die Genauigkeit von Systemen zur Erkennung von Netzwerkeinbrüchen verbessern und die Anzahl der Falschmeldungen reduzieren kann.

  • Umwelt: Ensemble-Methoden wie das Bagging wurden bereits im Bereich der Fernerkundung eingesetzt. Genauer gesagt zeigt diese Studie,wie sie zur Kartierung verschiedener Arten von Feuchtgebieten in einer Küstenlandschaft verwendet wurde.

  • Finanzwesen: Bagging wird auch mit Deep-Learning-Modellen in der Finanzbranche zur Automatisierung kritischer Aufgaben wie Betrugserkennung, Bewertung von Kreditrisiken und Optionspreisen eingesetzt. Diese Studie zeigt, wie Bagging und andere Techniken des maschinellen Lernens zur Bewertung von Kreditausfallrisiken eingesetzt werden. Diese Studie zeigt, wie Bagging zur Risikominimierung beiträgt, indem es Kreditkartenbetrug bei Banken und Finanzinstituten verhindert.
Weiterführende Lösungen
IBM watsonx.ai

Trainieren, validieren, optimieren und implementieren Sie generative KI, Foundation Models und maschinelle Lernfunktionen mit IBM watsonx.ai, einem Studio der nächsten Generation für AI Builder in Unternehmen. Erstellen Sie KI-Anwendungen mit einem Bruchteil der Zeit und Daten.

Entdecken sie watsonx.ai
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein – mit branchenführendem Fachwissen im Bereich KI und dem Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
KI-Beratung und -Services

Erfinden Sie kritische Workflows und Abläufe neu, indem Sie KI einsetzen, um Erfahrungen, Entscheidungsfindung in Echtzeit und den geschäftlichen Nutzen zu maximieren.

KI-Services entdecken
Machen Sie den nächsten Schritt

Profitieren Sie von einem einheitlichen Zugriff auf Funktionen, die den gesamten Lebenszyklus der KI-Entwicklung abdecken. Erstellen Sie leistungsstarke KI-Lösungen mit benutzerfreundlichen Oberflächen, Workflows und Zugriff auf branchenübliche APIs und SDKs.

watsonx.ai erkunden Live-Demo buchen