Bildklassifizierung wendet eine Klassenkennzeichnung auf ein gesamtes Bild an. Beispielsweise könnte ein einfaches Bildklassifizierungsmodell darauf trainiert werden, Fahrzeugbilder als „Auto“ oder „Lkw“ zu kategorisieren. Herkömmliche Bildklassifizierungssysteme sind in ihrer Komplexität begrenzt, da sie einzelne Bildmerkmale nicht separat verarbeiten.
Bei der Objekterkennung wird die Bildklassifizierung mit der Objektlokalisierung kombiniert, indem rechteckige Bereiche, so genannte „Bounding Boxes“ (Begrenzungsrahmen), erzeugt werden, in denen sich die Objekte befinden: Anstatt ein Fahrzeugbild lediglich als „Auto“ oder „Lkw“ zu kennzeichnen, könnte ein Objekterkennungsmodell angeben, wo im Bild das oder die Autos oder Lkw zu finden sind. Während die Objekterkennung mehrere Elemente innerhalb eines Bildes klassifizieren und die Breite und Höhe jedes Elements annähernd bestimmen kann, kann sie keine genauen Grenzen oder Formen erkennen. Dies schränkt die Fähigkeit herkömmlicher Objekterkennungsmodelle ein, eng gebündelte Objekte mit überlappenden Bounding Boxes abzugrenzen.
Bei der Bildsegmentierung werden visuelle Daten auf Pixelebene verarbeitet, wobei verschiedene Techniken verwendet werden, um einzelne Pixel als zu einer bestimmten Klasse oder Instanz gehörend zu kennzeichnen. „Klassische“ Bildsegmentierungsverfahren ermitteln Anmerkungen durch die Analyse inhärenter Eigenschaften jedes Pixels (so genannte „Heuristiken“) wie Farbe und Intensität, während Deep-Learning-Modelle komplexe neuronale Netze für eine anspruchsvolle Mustererkennung einsetzen. Die Ausgaben dieser Anmerkungen sind Segmentierungsmasken, die die spezifische Pixel-für-Pixel-Grenze und die Form jeder Klasse darstellen, die typischerweise verschiedenen Objekten, Merkmalen oder Regionen im Bild entspricht.
Im Großen und Ganzen wird die Bildsegmentierung für drei Arten von Aufgaben verwendet: semantische Segmentierung, Instanzsegmentierung und panoptische Segmentierung.