Dieses Tutorial verwendet ein Modul aus der scikit-learn (sklearn)-Bibliothek, das k-means-Clustering durchführt. Das Modul enthält integrierte Optimierungstechniken, die durch seine Klassenparameter manipuliert werden. Die Klasse für das Modul sieht folgendermaßen aus:
class sklearn.cluster.KMeans(n_clusters=8, *, init='k-means++', n_init='auto', max_iter=300, tol=0.0001, verbose=0, random_state=None, copy_x=True, algorithm='lloyd')12
Zu den Parametern gehören die Anzahl der zu bildenden Cluster und die Anzahl der zu generierenden Zentroide (n_clusters). Es stehen zwei Initialisierungsmethoden zur Verfügung: k-means++ und random. Es enthält auch Attribute zum Festlegen der maximalen Anzahl von Iterationen. Jede Iteration beginnt mit der Aufteilung des Datensatzes in den Wert des Parameters n_clusters.
Diese Bibliotheken werden verwendet, um einen Testdatensatz zu generieren und eine Clusteranalyse durchzuführen:
import pandas as pd
import sklearn
import matplotlib.pyplot as plt
import seaborn as sns
import numpy
from sklearn.cluster import KMeans
from sklearn.datasets import make_blobs
from sklearn.decomposition import PCA
from sklearn.preprocessing import StandardScaler