Ce tutoriel utilise un module de la bibliothèque scikit-learn (sklearn) qui effectue le clustering k-means. Le module comprend des techniques d’optimisation intégrées qui sont manipulées par ses paramètres de classe. La classe du module ressemble à ceci :
class sklearn.cluster.KMeans(n_clusters=8, *, init='k-means++', n_init='auto', max_iter=300, tol=0.0001, verbose=0, random_state=None, copy_x=True, algorithm='lloyd')12
Les paramètres incluent le nombre de clusters à former et le nombre de centroïdes à générer (n_clusters). Il existe deux méthodes d’initialisation disponibles : k-means++andrandom. Il comprend également des attributs permettant de définir le nombre maximal d'itérations. Chaque itération commence par la partition du jeu de données selon la valeur du paramètre n_clusters.
Ces bibliothèques sont utilisées pour générer un jeu de données de test et réaliser un partitionnement :
import pandas as pd
import sklearn
import matplotlib.pyplot as plt
import seaborn as sns
import numpy
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler