Un modello di clustering robusto17 crea cluster con elevata somiglianza intraclasse e bassa somiglianza interclasse. Tuttavia, può essere difficile definire la qualità dei cluster, mentre la selezione del criterio di linkage e dei numeri dei cluster può influire in modo significativo sui tuoi risultati. Pertanto, quando crei un modello di cluster, prova diverse opzioni e seleziona quelle che meglio ti aiutano a esplorare e rivelare i modelli nel set di dati per considerazioni future. I fattori da considerare18 includono:
- Il numero di cluster che sono pratici o logici per il set di dati (date le dimensioni del set di dati, le forme dei cluster, il rumore e così via)
- Statistiche, come i valori medi, massimi e minimi per ogni cluster
- La migliore metrica di dissomiglianza o il miglior criterio di linkage da applicare
- L'impatto di eventuali outlier o variabili di risultato
- Qualsiasi conoscenza specifica del dominio o del set di dati
Altri metodi per determinare il numero ottimale di cluster19 includono:
- Il metodo a gomito, in cui si traccia la somma dei quadrati all'interno del cluster rispetto al numero di cluster e si determina il "gomito" (il punto in cui il grafico si livella)
- Statistica del gap, in cui si confronta la somma effettiva dei quadrati all'interno del cluster con la somma dei quadrati all'interno del cluster attesa per una distribuzione di riferimento nulla e si identifica il gap più grande.