Los problemas de regression emplean un concepto similar al de los problemas de clasificación, pero en este caso se toma el promedio de los 'k-nearest neighbors' para hacer una predicción sobre una clasificación. La principal distinción es que la clasificación se emplea para valores discretos, mientras que regression se emplea con valores continuos. Sin embargo, antes de hacer una clasificación, hay que definir la distancia. La distancia euclidiana es la más empleada, en la que profundizaremos más adelante.
Cabe señalar que el algoritmo KNN también forma parte de una familia de modelos de "aprendizaje perezoso", lo que significa que sólo almacena un conjunto de datos de entrenamiento en lugar de someterse a una fase de entrenamiento. Esto también significa que todo el cálculo se produce cuando se realiza una clasificación o predicción. Dado que depende en gran medida de la memoria para almacenar todos sus datos de entrenamiento, también se denomina método de aprendizaje basado en instancias o en la memoria.
A Evelyn Fix y Joseph Hodges se les atribuyen las ideas iniciales en torno al modelo KNN en este artículo de 1951, mientras que Thomas Cover amplía su concepto en su investigación,"Nearest Neighbor Pattern Classification". Aunque ya no es tan popular como antes, sigue siendo uno de los primeros algoritmos que se aprenden en la ciencia de datos debido a su sencillez y precisión. Sin embargo, a medida que un conjunto de datos crece, KNN se vuelve cada vez más ineficaz, comprometiendo el rendimiento general del modelo. Se utiliza con frecuencia en sistemas de recomendación sencillos, reconocimiento de patrones, minería de datos, predicción de mercados financieros, detección de intrusiones y mucho más.