Également appelé analyse hiérarchique des clusters (HCA), le partitionnement hiérarchique est un algorithme non supervisé qui peut être classé de deux manières : agglomératif ou divisif.
Le partitionnement agglomératif est considéré comme une « approche ascendante ». Ses points de données sont initialement isolés en groupes distincts, puis fusionnés de manière itérative sur la base de leur similarité jusqu’à obtenir un seul cluster. Quatre méthodes différentes sont couramment utilisées pour mesurer la similarité :
- Méthode de liaison de Ward : elle stipule que la distance entre deux clusters est définie par l’augmentation de la somme des carrés après la fusion des clusters.
- Méthode de liaison moyenne : elle est définie par la distance moyenne entre deux points dans chaque cluster.
- Méthode de liaison complète (ou maximale) : elle est définie par la distance maximale entre deux points dans chaque cluster.
- Méthode de liaison simple (ou minimale) : elle est définie par la distance minimale entre deux points dans chaque cluster.
La distance euclidienne est l’indicateur le plus couramment utilisé pour calculer ces distances ; cependant, d’autres indicateurs, tels que la distance de Manhattan, sont également cités dans la littérature sur le partitionnement.
Le partitionnement divisif peut être défini comme l’opposé du partitionnement agglomératif ; il adopte plutôt une approche « descendante ». Dans ce cas, un seul cluster de données est divisé en fonction des différences entre les points de données. Le partitionnement divisif n’est pas couramment utilisé, mais il mérite néanmoins d’être cité dans le contexte du partitionnement hiérarchique. Ces processus de partitionnement sont généralement visualisés à l’aide d’un dendrogramme, un diagramme arborescent qui documente la fusion ou la division des points de données à chaque itération.