I problemi di regressione utilizzano un concetto simile a quello della classificazione, ma in questo caso viene presa in considerazione la media dei k vicini più prossimi per fare una previsione su una classificazione. La distinzione principale è che la classificazione viene utilizzata per i valori discreti, mentre la regressione viene utilizzata per quelli continui. Tuttavia, prima di poter effettuare una classificazione, è necessario definire la distanza. La distanza euclidea, che approfondiremo più avanti, è quella più comunemente utilizzata.
Vale la pena notare che l'algoritmo KNN fa anche parte di una famiglia di modelli di “apprendimento pigro”, ovvero memorizza solo un set di dati di addestramento anziché sottoporsi a una fase di addestramento. Ciò significa anche che tutti i calcoli vengono eseguiti quando si effettuano una classificazione o una previsione. Poiché si affida fortemente alla memoria per memorizzare tutti i dati di addestramento, viene anche definito un un metodo di apprendimento basato sull'istanza o sulla memoria.
A Evelyn Fix e Joseph Hodges si deve l'idea iniziale del modello KNN in questo articolo del 1951, mentre Thomas Cover espande il concetto nella sua ricerca, “Nearest Neighbor Pattern Classification.” Anche se non è più popolare come un tempo, rimane tuttora uno dei primi algoritmi che si apprendono nel campo della data science grazie alla sua semplicità e accuratezza. Tuttavia, via via che un set di dati cresce, il KNN diventa sempre più inefficiente, compromettendo le prestazioni complessive del modello. È comunemente impiegato per sistemi di raccomandazione semplici, riconoscimento di modelli, estrazione di dati, previsioni sui mercati finanziari, rilevamento delle intrusioni e molto altro.