Le partitionnement basé sur une distribution, parfois appelé partitionnement probabiliste, regroupe les points de données en fonction de leur distribution de probabilités. Cette approche suppose qu’il existe un processus générant des distributions normales pour chaque dimension des données qui créent les centres de cluster. Elle diffère du clustering basé sur le centroïde dans la mesure où elle n’utilise pas d'indicateur de distance telle qu’une distance euclidienne ou une distance de Manhattan. Au lieu de cela, les approches basées sur la distribution recherchent une distribution bien définie qui apparaît sur chaque dimension. Les moyennes de cluster sont les moyennes de la distribution gaussienne sur chaque dimension. Le clustering basé sur la distribution est une approche de clustering basée sur des modèles, car elle nécessite d'ajuster une distribution plusieurs fois sur chaque dimension pour trouver des clusters, ce qui signifie qu'elle peut être coûteuse en termes de calcul lorsque vous travaillez avec de grands jeux de données.
Une approche couramment utilisée pour le clustering basé sur la distribution consiste à créer un modèle de mélange gaussien (GMM) par le biais de l'espérance-maximisation. Un GMM est nommé en raison de l'hypothèse que chaque cluster est défini par une distribution gaussienne, souvent appelée distribution normale.
Considérez un jeu de données avec deux clusters distincts, A et B, qui sont tous deux définis par deux distributions normales différentes : l’une le long de l’axe des x et l’autre le long de l’axe des y. L’espérance-maximisation commence par une estimation aléatoire de ces deux distributions le long de chaque axe, puis procède à une amélioration itérative en alternant deux étapes :
Espérance : attribuez chaque point de données à chacun des clusters et calculez la probabilité qu’il provienne du cluster A et du cluster B.
Maximisation : mettez à jour les paramètres qui définissent chaque cluster, un emplacement moyen pondéré et une matrice de variance-covariance, en fonction de la probabilité que chaque point de données se trouve dans le cluster. Répétez ensuite l’étape d’espérance jusqu’à ce que l’équation converge sur les distributions observées pour chaque cluster.
Chaque point de données a une probabilité d’être associé à un cluster. Cela signifie que le clustering via l'espérance-maximisation est une approche de clustering douce et qu’un point donné peut être associé de manière probabiliste à plus d’un cluster. Cela a du sens dans certains scénarios, une chanson peut être un peu folk et un peu rock ou un utilisateur peut préférer les émissions de télévision en espagnol mais parfois aussi regarder des émissions en anglais.