O agrupamento baseado em distribuição, também conhecido como agrupamento probabilístico, agrupa pontos de dados com base em sua distribuição de probabilidade. Essa abordagem pressupõe que há um processo gerando distribuições normais para cada dimensão dos dados que criam os centros de agrupamento. É diferente do clustering baseado em centróides porque não utiliza uma métrica de distância como a distância Euclidiana ou de Manhattan. Em vez disso, as abordagens baseadas em distribuição procuram uma distribuição bem definida que apareça em cada dimensão. As médias do agrupamento são as médias da distribuição gaussiana em cada dimensão. O clustering baseado em distribuição é uma abordagem baseada em modelo para o clustering, pois exige o ajuste de uma distribuição várias vezes em cada dimensão para encontrar clusters, o que significa que pode ser computacionalmente caro no trabalho com grandes conjuntos de dados.
Uma abordagem comumente utilizada para agrupamento baseado em distribuição é criação do Modelo de Mistura Gaussiana (GMM) por meio da Expectativa-Maximização. Um GMM é nomeado devido à suposição de que cada cluster é definido por uma distribuição gaussiana, geralmente chamada de distribuição normal.
Considere um conjunto de dados com dois clusters distintos, A e B, ambos definidos por duas distribuições normais diferentes: uma ao longo do eixo x e outra ao longo do eixo y. A Expectativa-Maximização começa com uma estimativa aleatória para essas duas distribuições ao longo de cada eixo e então prossegue para melhorar iterativamente alternando duas etapas:
Expectativa: atribua cada ponto de dados a cada um dos clusters e calcule a probabilidade de que ele tenha vindo do cluster A e do cluster B.
Maximização: atualize os parâmetros que definem cada cluster, uma localização média ponderada e uma matriz de variância-covariância, com base na probabilidade de cada ponto de dados estar no cluster. Em seguida, repita a etapa de Expectativa até que a equação convirja nas distribuições observadas para cada cluster.
Cada ponto de dados recebe uma probabilidade de ser associado a um agrupamento. Isso significa que o agrupamento via Maximização de Expectativas é uma abordagem de agrupamento suave e que um determinado ponto pode ser probabilisticamente associado a mais de um agrupamento. Isso faz sentido em alguns cenários, uma música pode ser um pouco folk e um pouco rock ou um usuário pode preferir programas de televisão em espanhol, mas às vezes também assistir a programas em inglês.