Les problèmes de régression utilisent un concept similaire à la classification, mais dans ce cas, c’est la moyenne des k plus proches voisins qui est utilisée pour faire une prédiction. La principale distinction réside dans le fait que la classification concerne des valeurs discrètes, tandis que la régression porte sur des valeurs continues. Cependant, avant de pouvoir effectuer une classification, il est nécessaire de définir une distance. La distance euclidienne est la plus couramment utilisée, et nous l’examinerons plus en détail ci-dessous.
Il est également important de noter que l’algorithme k-NN fait partie de la famille des modèles d’« apprentissage paresseux », ce qui signifie qu’il stocke simplement le jeu de données d’entraînement sans passer par une étape d’entraînement. Cela signifie aussi que tous les calculs sont effectués au moment de la classification ou de la prédiction. Comme il dépend fortement de la mémoire pour stocker toutes les données d’apprentissage, on parle également d’une méthode d’apprentissage basée sur les instances ou sur la mémoire.
Evelyn Fix et Joseph Hodges sont crédités des premières idées autour du modèle k-NN dans leur publication de 1951, tandis que Thomas Cover a développé ce concept dans sa recherche « Nearest Neighbor Pattern Classification » (Classification des motifs par les plus proches voisins). Bien que cet algorithme soit moins populaire aujourd’hui, il reste l’un des premiers que l’on apprend en science des données, grâce à sa simplicité et à sa précision. Cependant, à mesure que la taille des jeux de données augmente, k-NN devient de plus en plus inefficace, ce qui nuit aux performances globales du modèle. Il est souvent utilisé pour des systèmes de recommandation simples, la reconnaissance des formes, le data mining, les prédictions sur les marchés financiers, la détection des intrusions, etc.