Questa esercitazione usa un modulo della libreria scikit-learn (sklearn) che esegue il k-means clustering. Il modulo include tecniche di ottimizzazione integrate che vengono manipolate dai suoi parametri di classe. La classe per il modulo è simile a questa:
class sklearn.cluster.KMeans(n_clusters=8, *, init='k-means++', n_init='auto', max_iter=300, tol=0.0001, verbose=0, random_state=None, copy_x=True, algorithm='lloyd')12
I parametri includono il numero di cluster da formare e il numero di centroidi da generare (n_clusters). Sono disponibili due metodi di inizializzazione: k-means++ e casuale. Include anche gli attributi per impostare il numero massimo di iterazioni. Ogni iterazione inizia con la suddivisione del set di dati nel valore del parametro n_cluster.
Le seguenti librerie vengono utilizzate per generare un set di dati di test ed eseguire il clustering:
import pandas as pd
import sklearn
import matplotlib.pyplot as plt
import seaborn as sns
import numpy
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler