Ada berbagai cara untuk menggunakan pengelompokan dalam machine learning, mulai eksplorasi awal kumpulan data hingga pemantauan proses yang sedang berlangsung. Anda dapat menggunakannya dalam analisis data eksplorasi dengan kumpulan data baru untuk memahami tren, pola, dan outlier yang mendasarinya. Atau, Anda mungkin memiliki kumpulan data lebih besar yang perlu dipecah menjadi beberapa kumpulan data atau dikurangi menggunakan reduksi dimensi. Dalam semua kasus ini, pengelompokan dapat menjadi langkah dalam prapemrosesan.
Contoh klaster dapat mencakup genre musik, kelompok pengguna yang berbeda, segmen utama dari segmentasi pasar, jenis lalu lintas jaringan pada klaster server, grup teman di jejaring sosial, atau beragam jenis kategori lainnya. Proses pengelompokan dapat menggunakan satu fitur data atau semua fitur yang ada dalam data.
Akan sangat membantu jika kita menganggap pengelompokan sebagai upaya menemukan pengelompokan alami dalam data untuk melihat kategori apa yang mungkin ada dan apa yang mendefinisikan kategori tersebut. Klaster dapat membantu Anda menemukan hubungan yang mendasari titik data untuk melihat fitur atau karakteristik apa yang dibagikan di seluruh kategori. Bergantung pada algoritme pengelompokan yang digunakan, Anda mungkin dapat menghapus outlier dari data Anda atau memberi label sebagai outlier. Klastering juga dapat membantu dalam deteksi anomali dengan mendeteksi titik data apa yang tidak terkandung dalam sebuah klaster atau hanya berkaitan secara lemah dengan sebuah klaster dan dengan demikian dapat menjadi anomali dalam proses pembuatan data.
Klastering juga dapat digunakan untuk mengurangi kompleksitas kumpulan data besar dengan mengurangi jumlah dimensi data. Jika Anda melihat bahwa kategori hanya ditentukan oleh dua atau tiga fitur, Anda mungkin dapat menghapus fitur yang tidak relevan atau menggunakan teknik pengurangan dimensi seperti PCA. Pengelompokan juga sangat berguna dalam membuat visualisasi kumpulan data untuk melihat sifat yang muncul dari data serta kepadatan dan hubungan antar klaster.
Algoritme pengelompokan terkadang dibedakan sebagai pengelompokan keras, di mana setiap titik data hanya termasuk dalam satu klaster dan memiliki nilai biner, yaitu berada di dalam atau tidak di dalam klaster, atau pengelompokan lunak di mana setiap titik data diberi probabilitas untuk berada di setiap klaster yang diidentifikasi. Tidak ada satu proses pengelompokan yang terbaik, Anda sebaiknya memilih pendekatan yang paling masuk akal untuk kebutuhan Anda dan data yang Anda gunakan.