Bagging, auch bekannt als Bootstrap-Aggregation, ist die allgemein verwendete Ensemble-Lernmethode, um die Varianz innerhalb eines verrauschten Datasets zu reduzieren. Beim Bagging wird eine Zufallsstichprobe von Daten in einem Trainingsset mit Ersetzen ausgewählt – das bedeutet, dass die einzelnen Datenpunkte mehr als einmal ausgewählt werden können. Nachdem mehrere Datenstichproben generiert wurden, werden diese Modelle unabhängig voneinander trainiert, und je nach Art der Aufgabe – z. B. Regression oder Klassifizierung – ergibt der Durchschnitt oder die Mehrheit dieser Vorhersagen eine genauere Schätzung.
Der Random-Forest-Algorithmus ist eine Erweiterung der Bagging-Methode, die sowohl Bagging als auch die Zufälligkeit von Merkmalen verwendet, um einen unkorrelierten Entscheidungsbaum-Forest zu erstellen.
Ensemblelernen verleiht der Idee der „Schwarmintelligenz“ Glaubwürdigkeit, die besagt, dass die Entscheidungsfindung einer größeren Gruppe von Menschen in der Regel besser ist als die eines einzelnen Experten. In ähnlicher Weise bezieht sich das Ensemble-Lernen auf eine Gruppe (oder ein Ensemble) von Basislernern oder Modellen, die gemeinsam arbeiten, um eine bessere Endvorhersage zu erreichen. Ein einzelnes Modell, auch bekannt als Basis- oder schwacher Lerner, kann aufgrund einer hohen Varianz oder einer hohen Verzerrung individuell nicht gut abschneiden. Wenn Schwach-Lerner jedoch aggregiert werden, können sie einen Stark-Lerner bilden, da ihre Kombination Verzerrungen oder Varianzen reduziert und zu einer besseren Modellleistung führt.
Ensemblemethoden werden häufig anhand von Entscheidungsbäumen dargestellt, da dieser Algorithmus zu einer Überanpassung (hohe Varianz und geringe Verzerrung) neigen kann, wenn er nicht beschnitten wurde. Er kann auch zu einer Unteranpassung (niedrige Varianz und hohe Verzerrung) tendieren, wenn er sehr klein ist, wie beispielsweise ein Entscheidungsstumpf, d. h. ein Entscheidungsbaum mit einer Ebene. Ein Algorithmus kann neue Datasets nicht gut verallgemeinern, wenn der Trainingssatz über- bzw. unterangepasst ist. Daher werden Ensemblemethoden verwendet, um diesem Verhalten entgegenzuwirken und eine Verallgemeinerung des Modells auf neue Datasets zu ermöglichen. Während Entscheidungsbäume eine hohe Varianz oder Verzerrung aufweisen können, ist es erwähnenswert, dass dies nicht die einzige Modellierungstechnik ist, die das Ensemblelernen nutzt, um den optimalen Punkt des Kompromisses zwischen Verzerrung und Varianz zu finden.
Bagging und Boosting sind zwei Hauptarten von Ensemblelernmethoden. Wie in dieser Studie (PDF, 248 KB) (Link befindet sich außerhalb von ibm.com) aufgezeigt, besteht der Hauptunterschied zwischen diesen Lernmethoden in der Art und Weise, wie sie trainiert werden. Beim Bagging werden schwache Lerner parallel trainiert, beim Boosting lernen sie nacheinander. Dies bedeutet, dass eine Serie von Modellen konstruiert wird und mit jeder neuen Modelliteration die Gewichtungen der falsch klassifizierten Daten im früheren Modell erhöht werden. Diese Umverteilung der Gewichtung hilft dem Algorithmus, die Parameter zu identifizieren, auf die er sich konzentrieren muss, um seine Leistung zu verbessern. AdaBoost, was für „adaptativer Boosting-Algorithmus" steht, ist einer der beliebtesten Boosting-Algorithmen, da er einer der ersten seiner Art war. Andere Arten von Boosting-Algorithmen schließen XGBoost, GradientBoost und BrownBoost ein.
Ein weiterer Unterschied zwischen Bagging und Boosting sind die Szenarien, in denen sie eingesetzt werden. Zum Beispiel werden Bagging-Methoden typischerweise auf schwache Lerner mit hoher Varianz und geringer Verzerrung angewendet und Boosting-Methoden bei geringer Varianz und hoher Verzerrung.
1996 führte Leo Breiman (PDF, 829 KB) (Link befindet sich außerhalb von ibm.com) den Bagging-Algorithmus ein, der drei grundlegende Schritte umfasst:
Es gibt eine Reihe von wichtigen Vorteilen und Herausforderungen bei der Bagging-Methode, wenn sie für Klassifizierungs- oder Regressionsprobleme verwendet wird. Die wichtigen Vorteile von Bagging umfassen:
Wichtigen Herausforderungen des Baggings umfassen:
Das Bagging-Verfahren wird in einer Vielzahl von Branchen eingesetzt und liefert Einblicke, die sowohl einen realen Nutzen als auch interessante Perspektiven bieten, wie z. B. in den GRAMMY-Debatten mit Watson. Einige der Anwendungsfälle umfassen:
IBM SPSS Modeler bietet Vorhersageanalysen, mit denen Sie Datenmuster erkennen, Vorhersagegenauigkeit erreichen und die Entscheidungsfindung verbessern können.
Erstellen und skalieren Sie vertrauenswürdige KI in jeder Cloud. Automatisieren Sie den KI-Lebenszyklus für ModelOps.
Erkunden Sie die IBM Data Science Community, um weitere Informationen zu der Datenwissenschaft und dem maschinellen Lernen zu erfahren.