Clasificación de imágenes aplica una etiqueta de clase a una imagen completa. Por ejemplo, un modelo sencillo de clasificación de imágenes puede entrenarse para clasificar imágenes de vehículos como "coche" o "camión". Los sistemas convencionales de clasificación de imágenes suelen ser poco sofisticados, ya que no tratan por separado las características individuales de las imágenes.
Detección de objetos combina la clasificación de imágenes y la localización de objetos, generando regiones rectangulares, denominados "cuadros delimitadores", en las que se encuentran los objetos. Así, en lugar de etiquetar simplemente una imagen de un vehículo como "coche" o "camión", un modelo de detección de objetos podría indicar dónde se encuentran los coches o camiones en la imagen. Aunque la detección de objetos puede clasificar varios elementos dentro de una imagen y determinar la anchura y altura aproximadas de cada elemento, no puede discernir formas o contornos precisos. Esto limita la capacidad de los modelos convencionales de detección de objetos para delinear objetos poco espaciados con cuadros delimitadores superpuestos.
La segmentación de imágenes procesa datos visuales a nivel de píxel, utilizando diversas técnicas para anotar píxeles individuales como pertenecientes a una clase o instancia específica. Las técnicas tradicionales de segmentación de imágenes determinan las anotaciones analizando las cualidades inherentes de cada píxel (conocidas como "heurística"), como el color y la intensidad, mientras que los modelos de deep learning utilizan redes neuronales complejas para un sofisticado reconocimiento de patrones. Los resultados de este proceso de anotación son máscaras de segmentación, que representan el límite y la forma específicos, píxel a píxel, de cada clase, que generalmente corresponde a diferentes objetos, características o regiones dentro de la imagen.
En términos generales, la segmentación de imágenes se utiliza para tres tipos de tareas: segmentación semántica, segmentación de instancias y segmentación panóptica.