El clustering basado en la distribución, a veces denominado clustering probabilístico, agrupa los puntos de datos en función de su distribución de probabilidad. Este enfoque supone que hay un proceso que genera distribuciones normales para cada dimensión de los datos que crea los centros de clústeres. Se diferencia del clustering basado en centroides en que no utiliza una métrica de distancia como una distancia euclidiana o de Manhattan. En su lugar, los enfoques basados en la distribución buscan una distribución bien definida que aparezca en cada dimensión. Las medias de los clústeres son las medias de la distribución gaussiana en cada dimensión. El clustering basado en distribución es un enfoque basado en modelos para clustering, ya que requiere ajustar una distribución varias veces en cada dimensión para encontrar clústeres, lo que significa que puede ser costoso desde el punto de vista computacional cuando se trabaja con grandes conjuntos de datos.
Un enfoque comúnmente utilizado para el clustering basado en la distribución es crear un modelo de mezcla gaussiana (GMM) a través de la maximización de expectativas. Un GMM se denomina así debido a la suposición de que cada clúster está definido por una distribución gaussiana, a menudo llamada distribución normal.
Considere un conjunto de datos con dos clústeres distintos, A y B, definidos ambos por dos distribuciones normales diferentes: una a lo largo del eje x y otra a lo largo del eje y. La maximización de expectativas comienza con una suposición aleatoria de cuáles son esas dos distribuciones a lo largo de cada eje y luego procede a mejorar iterativamente alternando dos pasos:
Expectativa: asigne cada punto de datos a cada uno de los clústeres y calcule la probabilidad de que provenga del clúster A y del clúster B.
Maximización: actualice los parámetros que definen cada clúster, una ubicación media ponderada y una matriz de varianzas y covarianzas, en función de la probabilidad de que cada punto de datos esté en el clúster. A continuación, repita el paso Expectativa hasta que la ecuación converja en las distribuciones observadas para cada clúster.
A cada punto de datos se le asigna una probabilidad de estar asociado a un clúster. Esto significa que el clustering mediante Maximización de Expectativas es un enfoque de clustering flexible y que un punto dado puede estar asociado probabilísticamente a más de un cluster. Esto tiene sentido en algunos escenarios, una canción puede ser algo folk y algo rock o un usuario puede preferir programas de televisión en español, pero a veces también ver programas en inglés.