Bagging, conhecido como agregação de bootstrap, é o método de aprendizado por agrupamento, comumente usado para reduzir a variância em um conjunto de dados com ruídos. No bagging, uma amostra aleatória de dados em um conjunto de treinamento é selecionada com uma substituta, o que significa que os pontos de dados individuais podem ser escolhidos mais de uma vez. Após gerar várias amostras de dados, esses modelos fracos são então treinados de forma independente e de acordo com o tipo de tarefa, por exemplo, regressão ou classificação. A média ou a maioria dessas previsões mostra como resultado uma estimativa mais precisa.
Como uma observação, o algoritmo de floresta aleatória é considerado uma extensão do método de bagging, usando tanto o bagging quanto a aleatoriedade de recursos para criar uma floresta não correlacionada de árvores de decisão.
O aprendizado por agrupamento dá credibilidade ao conceito de “sabedoria das multidões”, o qual sugere que a tomada de decisão de um grupo maior de pessoas é tipicamente melhor do que a de um único especialista. Da mesma forma, o aprendizado por agrupamento refere-se a um grupo (ou agrupamento) de aprendizes de base, ou modelos, que trabalham coletivamente para alcançar uma melhor predição final. Um modelo único, conhecido também como aprendiz de base ou fraco, pode não ter um bom desempenho individualmente devido à alta variância ou alto viés. No entanto, quando os aprendizes fracos são agrupados, eles podem formar um aprendiz forte, pois sua combinação reduz o viés ou a variância, resultando em um melhor desempenho do modelo.
Métodos de agrupamento são frequentemente ilustrados usando árvores de decisão, pois este algoritmo pode ser propenso ao super ajuste (alta variância e baixo viés) quando não é adaptado, podendo também sofrer um subajuste (baixa variância e alto viés) quando for muito pequeno, como um toco de decisão, que é uma árvore de decisão com um nível. Lembre-se, quando um conjunto de treinamento do algoritmo passa por um super ajuste ou um subajuste, ele não consegue realizar generalização de novos conjuntos de dados, portanto, métodos de agrupamento são usados para balancear esse comportamento e permitir a generalização do modelo para novos conjuntos de dados. Embora as árvores de decisão possam exibir alta variância ou alto viés, vale a pena notar que essa não é a única técnica de modelagem que utiliza o aprendizado por agrupamento para encontrar o "ponto ideal" do dilema de viés-variância.
Bagging e boosting são os dois tipos principais de métodos de aprendizado por agrupamento. Conforme destacado neste estudo (link externo à ibm.com), a principal diferença entre esses métodos de aprendizado é a forma como são treinados. No bagging, os aprendizes fracos são treinados simultaneamente, mas no boosting, eles são treinados sequencialmente. Isso significa que uma série de modelos é construída e, a cada nova iteração de modelo, os pesos dos dados mal classificados no modelo anterior aumentam. Essa redistribuição de pesos ajuda o algoritmo a identificar os parâmetros nos quais ele precisa se concentrar para melhorar seu desempenho. AdaBoost, que significa "algoritmo de boosting adaptativo", é um dos algoritmos de boosting mais populares, pois foi um dos primeiros a ser usado. Outros tipos de algoritmos de boosting são XGBoost, GradientBoost e BrownBoost.
Outro ponto em que o bagging e o boosting diferem são os cenários em que são usados. Por exemplo, os métodos de bagging são geralmente usados em aprendizes fracos que apresentam alta variância e baixo viés, considerando que os métodos de boosting são usados quando há baixa variância e alto viés.
Em 1996, Leo Breiman (link externo à ibm.com) apresentou o algoritmo de bagging, que possui três etapas básicas:
Há uma série de vantagens e desafios importantes que o método de bagging apresenta quando usado para problemas de classificação ou regressão. Os principais benefícios do bagging incluem:
Os principais desafios do bagging incluem:
A técnica de bagging é usada em um grande número de setores, fornecendo insights para gerar tanto valor do mundo real quanto perspectivas interessantes, como no Debates do GRAMMY com Watson. Alguns dos casos de uso mais importantes incluem:
O IBM SPSS Modeler oferece a análise preditiva para ajudá-lo a revelar padrões de dados, ganhar precisão preditiva e melhorar a tomada de decisão.
Desenvolva e ajuste a escala da IA confiável em qualquer cloud. Automatize o ciclo de vida de IA para ModelOps.
Conheça a IBM Data Science Community para saber mais sobre ciência de dados e machine learning.