Was ist Bilderkennung?

Autoren

Tim Mucci

IBM Writer

Gather

Was ist Bilderkennung?

Bilderkennung ist eine Anwendung des maschinellen Lernens (ML), die es Software und Geräten ermöglicht, Objekte, Orte, Personen, Schriften und Handlungen in digitalen Bildern oder Videos zu identifizieren.

Die Bilderkennungstechnologie ermöglicht Computern die Erkennung von Produktfehlern, unterstützt Mediziner bei der Erkennung von Anomalien und ist ein wesentlicher Bestandteil bei der Entwicklung autonomer Fahrzeuge.

Die Bilderkennung ist eine Kernaufgabe der Computer Vision, dem breiteren Gebiet der Technologie der künstlichen Intelligenz (KI), mit der Software und Maschinen visuelle Daten verstehen und darauf reagieren können.

Ingenieure verwenden traditionelles maschinelles Lernen und Deep Learning-Modelle zur Bilderkennung. Diese Ansätze sind in der Regel getrennt. Ob sie kombiniert oder unabhängig voneinander verwendet werden, hängt vom spezifischen Problem und den Ressourcenanforderungen ab.

Die neuesten KI-Trends, präsentiert von Experten

Erhalten Sie kuratierte Einblicke in die wichtigsten – und faszinierendsten – KI-Neuheiten. Abonnieren Sie unseren wöchentlichen Think-Newsletter. Weitere Informationen in der IBM Datenschutzerklärung.

Vielen Dank! Sie haben ein Abonnement abgeschlossen.

Ihr Abonnement wird auf Englisch geliefert. In jedem Newsletter finden Sie einen Abmeldelink. Hier können Sie Ihre Abonnements verwalten oder sich abmelden. Weitere Informationen finden Sie in unserer IBM Datenschutzerklärung.

Bilderkennung mit traditionellem maschinellem Lernen
 

Maschinelles Lernen verwendet Algorithmen, die Bilder auf der Grundlage von Merkmalen klassifizieren, die von menschlichen Ingenieuren manuell extrahiert wurden. Ingenieure verarbeiten die Bilder vor und analysieren sie entsprechend dem spezifischen Ziel oder Problem, das sie durch Bilderkennung zu lösen versuchen.

Dabei kann es um das Identifizieren von Gesichtern, Erkennen von Objekten oder Klassifizieren von Strukturen gehen. In jedem Fall nutzt der Ingenieur sein Fachwissen zur Vorverarbeitung der Bilder und zum Training des Algorithmus.

Bilderkennungssoftware nutzt Objekterkennung zur Erkennung bestimmter Fahrzeugtypen Bilderkennungssoftware nutzt Objekterkennung zur Erkennung bestimmter Fahrzeugtypen

Normalisierung

Ingenieure bereiten Bilder für die Analyse vor, indem sie das Bild normalisieren, d. h. die Pixelwerte auf einen Standardbereich skalieren, in der Regel zwischen 0–1 oder -1–1, damit die Daten einheitlich sind und für maschinelle Lernmodelle besser verarbeitet werden können.

Die Vorverarbeitung umfasst auch die Größenänderung von Bildern, die Konvertierung in Graustufen zur Reduzierung der Rechenkomplexität oder die Entfernung von Rauschen durch die Verwendung von Gaußschen Filtertechniken. „Rauschen“ bei der Bilderkennung bezieht sich auf jede unerwünschte oder zufällige Variation der Pixel, z. B. ein gesprenkeltes, körniges, verschwommenes oder verzerrtes Bild.

Funktionsextraktion

Als Nächstes müssen die Ingenieure die Funktionen auswählen, die die aussagekräftigsten Informationen liefern. Dabei kann es sich um Kanten bei der Erkennung von Formen oder Farbintensität handeln, sofern das Ergebnis die Unterscheidung von Objekten anhand des Farbtons ist. Da Modelle für maschinelles Lernen auf manuell extrahierten Funktionen basieren, kennzeichnen Datenannotationen wichtige Informationen.

Durch das Kommentieren von interessanten Objekten in den Bildern können die Modelle bestimmte Objekte wie „Katze“ oder „Hund“ leichter erkennen und klassifizieren. Dank präzise annotierter Daten können Algorithmen des maschinellen Lernens die visuellen Merkmale jeder Kategorie genau lernen.

Kodierung für maschinelles Lernen
 

Ingenieure extrahieren diese Merkmale und formatieren sie in numerische Vektoren, sodass maschinelle Lernmodelle Bilder leichter verarbeiten und vergleichen können. Ingenieure übersetzen jedes Bild in einen Merkmalsvektor fester Länge, eine Liste von Zahlen, die seine Bedeutung zusammenfassen.

Bilderkennung mit Deep-Learning-Modellen
 

Im Gegensatz dazu können Deep-Learning-Modelle direkt aus dem Bild lernen. Deep Learning, ein Teilbereich des maschinellen Lernens, verwendet neuronale Netze mit mehreren Ebenen zur Erfüllung komplexer Bildvorverarbeitungs- und Erkennungsaufgaben, jedoch auf Kosten höherer Rechen- und Datenanforderungen.

Konvolutionale neuronale Netze (Convolutional Neural Networks, CNNs) sind Deep-Learning-Architekturen mit konvolutionalen Ebenen, die die strukturierte Beschaffenheit von Bilddaten analysieren und lernen.

Eingabeebene
 

Das tiefe neuronale Netz von CNN erkennt automatisch den Pixel-Rohwert des Bildes. Das CNN leitet diese Informationen durch die Ebenen des Deep Network, um Muster zu extrahieren und schließlich Vorhersagen über das Bild zu treffen.

Die Ebenen des Netzwerks beginnen mit der Eingabeebene. Die Eingabeebene verarbeitet die rohen Pixelwerte des Bildes, behandelt sie als Gitter mit numerischen Intensitäten und gibt sie zur Musterextraktion an nachfolgende Ebenen weiter.

Funktionsextraktion

Als Nächstes wendet die konvolutionale Ebene kleine Filter oder Kernels auf das Bild an, um lokale Muster wie Kanten oder Struktur zu erkennen. Die Konvolution reduziert den Bedarf an manueller Merkmalsextraktion, da das Netz die Muster direkt aus den Daten lernen kann.

Nach jeder Konvolution führt eine Aktivierungsfunktion Nichtlinearität in das Modell ein, sodass das Netz komplexe Muster, Formen und Objekte durch Übereinanderlegen mehrerer Ebenen lernen kann.

Pooling und Flattening

Durch das Pooling von Ebenen wird das Bild verkleinert, um seine Größe zu reduzieren und gleichzeitig wichtige Merkmale beizubehalten. So wird sichergestellt, dass das Modell Variationen wie leichte Rotationen oder Verschiebungen im Bild rechnerisch effizient verarbeitet.

Nachdem das Netz Merkmale extrahiert hat, wandelt es die Daten in einem eindimensionalen Vektor um und leitet sie durch vollständig verbundene Ebenen. Diese Ebenen integrieren die in früheren Phasen erlernten Muster, um komplexe Beziehungen zu erkennen und den Klassifizierungsprozess zu verfeinern.

Ausgabeebene
 

Schließlich erreichen die Daten die Ausgabeebene, die die extrahierten Merkmale konsolidiert und eine endgültige Vorhersage erstellt. Diese Vorhersage wird mit dem Trainingsdatensatz mit Anmerkungen verglichen, um Fehler zu berechnen und die Gewichtungen des Netzes für eine höhere Genauigkeit anzupassen.

Um beispielsweise ein Modell darauf zu trainieren, Bilder von Katzen zu erkennen, könnten Ingenieure überwachtes Lernen verwenden und Tausende von Bildern mit Tags wie „Katze“ oder „keine Katze“ kennzeichnen, damit das Modell Hauptmerkmale wie Fellstruktur, Schnurrhaare und Ohrenform lernen kann.

Alternativ arbeitet das Modell beim unüberwachten Lernen mit unbeschrifteten Daten, um Muster unabhängig zu erkennen. Das Modell erkennt Beziehungen ohne vordefinierte Kategorien, indem es Bilder auf der Grundlage gemeinsamer Merkmale (z. B. ähnliche Formen oder Strukturen) gruppiert.

Dieser Ansatz ist hilfreich für Aufgaben wie Betrugserkennung, Qualitätskontrolle und Musteranalyse, sofern keine gekennzeichneten Daten verfügbar sind. Beim unüberwachten Lernen würde das Modell Bilder unabhängig voneinander auf der Grundlage gemeinsamer Muster clustern und alle Katzenbilder gruppieren, ohne ausdrücklich zu wissen, dass es sich um Katzen handelt.

Ein dritter Ansatz, das selbstüberwachte Lernen, kombiniert Aspekte des unüberwachten Lernens, indem es mit nicht gekennzeichneten Daten beginnt, jedoch aus der inhärenten Struktur der Daten Pseudokennzeichnungen generiert, mit denen Modelle aussagekräftige Repräsentationen ohne herkömmliche Kennzeichnungen lernen können, was sie für Aufgaben mit begrenzten gekennzeichneten Datensätzen leistungsstark macht.

Mit selbstüberwachtem Lernen könnte das Modell Teile eines Bildes analysieren, z. B. ein teilweise verdecktes Katzengesicht rekonstruieren, um Muster und Merkmale zu erkennen. Letztendlich konnte das trainierte Modell – ob mit maschinellem Lernen oder Deep Learning – neue, ungesehene Bilder von Katzen genau identifizieren und klassifizieren und sie von anderen Tieren oder Objekten unterscheiden.

Bilderkennung anhand von Begrenzungsrahmen zur Klassifizierung von Fahrzeugen Bilderkennung anhand von Begrenzungsrahmen zur Klassifizierung von Fahrzeugen

Herausforderungen bei der Bilderkennung
 

Die Technologien zur Bilderkennung haben sich zwar weiterentwickelt, stehen aber immer noch vor Herausforderungen, die die Genauigkeit und Zuverlässigkeit beeinträchtigen. Ingenieure entschärfen diese Probleme, indem sie verbesserte Modellarchitekturen, diverse Trainingsdatensätze und Vorverarbeitungstechniken kombinieren.

Überladene oder verdeckte Bilder
 

Überwachtes Lernen verwendet gekennzeichnete Daten, wobei jedes Bild mit der richtigen Kategorie versehen ist, um den Algorithmus anhand anschaulicher Beispiele zu leiten. Um beispielsweise ein System zur Erkennung von Autos zu trainieren, ist ein Datensatz mit der Bezeichnung „Katze“ und „nicht Katze“ erforderlich. Das Modell lernt dann, anhand von visuellen Mustern innerhalb dieser gekennzeichneten Beispiele zu unterscheiden.

Variationen von Winkeln und Perspektiven

Beim unüberwachten Lernen verwendet der Algorithmus nicht gekennzeichnete Daten und erkennt Muster selbstständig. Ähnlich wie wenn man einem Kind eine Kiste mit Spielzeug gibt, das es nach Ähnlichkeit sortieren soll, gruppieren unüberwachte Algorithmen Bilder auf der Grundlage gemeinsamer Merkmale (z. B. Schnurrhaare, Fell, vier Beine und Schwänze), ohne die expliziten Kategorien zu kennen.

Lichtverhältnisse

Änderungen der Beleuchtung, wie z. B. Schatten, Helligkeitsschwankungen oder Umgebungen mit schlechten Lichtverhältnissen, können sich auf die Leistung von Bilderkennungssystemen auswirken. Helle Flecken können Details verwischen und Schatten könnten entscheidende Merkmale verdecken, sodass das Modell die Form oder Farbe eines Objekts falsch interpretiert.

Fortschrittliche Methoden wie die adaptive Histogrammausgleich oder die Einbeziehung von Trainingsdaten mit unterschiedlichen Lichtbedingungen tragen dazu bei, dass die Modelle in unterschiedlichen Beleuchtungsszenarien eine bessere Leistung erzielen.

Einschränkungen bei den Trainingsdaten
 

Die Leistung eines Bilderkennungsmodells hängt von der Vielfalt und Qualität seiner Trainingsdaten ab. Modelle, die auf Datensätzen trainiert wurden, die in erster Linie hochauflösende, idealisierte Bilder enthalten, können Schwierigkeiten haben, wenn sie auf qualitativ minderwertige oder praxisnahe Varianten treffen.

Um dieses Problem zu verringern, stellen Ingenieure verschiedene Datensätze zusammen, die realistische Bedingungen darstellen. Techniken wie das Transfer-Learning ermöglichen Modellen die Verwendung vorab trainierter Kenntnisse aus großen, robusten Datensätzen und die Verbesserung der Leistung selbst bei begrenzten Daten.

Objektgröße und -nähe
 

Die Größe eines Objekts in einem Bild, das von seiner Nähe zur Kamera beeinflusst wird, kann sich auf die Fähigkeit des Modells auswirken, es genau zu identifizieren. Kleine Objekte weisen möglicherweise nicht genügend Details für die Erkennung auf, während zu nahe gelegene Objekte verzerrt oder zu groß erscheinen können, sodass das Modell sie nicht richtig klassifizieren kann.

Um dieses Problem zu lösen, trainieren Ingenieure Modelle mit Datensätzen, die Objekte unterschiedlicher Größe und Entfernung enthalten. Mehrskalige Bildverarbeitungstechniken und Merkmalspyramiden werden ebenfalls eingesetzt, um sicherzustellen, dass das Modell Objekte in einem breiten Größenspektrum verarbeiten kann.

Mixture of Experts | 12. Dezember, Folge 85

KI entschlüsseln: Wöchentlicher Nachrichtenüberblick

Schließen Sie sich unserer erstklassigen Expertenrunde aus Ingenieuren, Forschern, Produktführern und anderen an, die sich durch das KI-Rauschen kämpfen, um Ihnen die neuesten KI-Nachrichten und Erkenntnisse zu liefern.

Bilderkennung und Objekterkennung
 

Die Objekterkennung erweitert die Bilderkennung, indem sie Objekte innerhalb eines Bildes identifiziert und ihre Position bestimmt. Mithilfe dieser Technik kann das System Fragen beantworten wie: „Wo ist die Katze auf diesem Bild?“ oder „Wie viele Katzen sind in der Szene zu sehen?“ Die Objekterkennung liefert mehr Kontext, da sie Objekte und deren Positionen, Größen und Ausrichtungen innerhalb des Rahmens erkennt.

Anstatt beispielsweise „eine Katze“ in einem Bild zu erkennen, kann der Computer mit Hilfe der Objekterkennung angeben: „In der linken Ecke des Bildes sitzt eine Katze auf dem Sofa“, wodurch ein räumliches Verständnis der Szene und der Beziehungen zwischen den Objekten entsteht.

Bilderkennungsaufgaben können auch in ihrer Komplexität variieren. Bei der Bildkategorisierung oder Bildklassifizierung wird einem gesamten Bild basierend auf seinem Inhalt eine einzelne Kennzeichnung zugewiesen und die Frage „Was ist in diesem Bild zu sehen?“ beantwortet

So lernt beispielsweise ein Modell, das auf gekennzeichneten Datensätzen von Katzen und Hunden trainiert wurde, zwischen den beiden zu unterscheiden, indem es ihre einzigartigen Merkmale identifiziert. Wenn dem Modell ein neues Bild präsentiert wird, analysiert es diese Merkmale, um vorherzusagen, ob es eine Katze oder einen Hund zeigt.

Modelle verwenden Begrenzungsrahmen, um diese einzelnen Objekte zu umranden, sie vom Hintergrund zu trennen und zu markieren, wo jedes Objekt beginnt und endet. Diese Präzision ist besonders entscheidend für Anwendungen wie das autonome Fahren, bei dem die genaue Erkennung von Objekten wie Fahrzeugen, Fußgängern und Straßenschildern für die Sicherheit unerlässlich ist.

Zunehmende Einsatzmöglichkeiten der Bilderkennung
 

Die Bilderkennung macht rasche Fortschritte und ebnet den Weg für anspruchsvollere Anwendungen in zahlreichen Branchen und Anwendungsfällen. Hier sind einige vorherrschende Anwendungen der Bilderkennung aus der Praxis:

Autonome Fahrzeuge

Viele Smartphones sind mit einer Gesichtserkennungstechnologie ausgestattet, mit der Benutzer ihre Geräte durch einen Blick auf den Bildschirm entsperren können. Diese Anwendung der Bilderkennung ist inzwischen weit verbreitet, wobei die Systeme zur Überprüfung der Identität einzelne Gesichtsmerkmale erkennen.

Gesichtserkennung

Die Gesichtserkennung wird auch häufig in den Bereichen Sicherheit und Überwachung eingesetzt, um Personen aus Videoübertragungen zu identifizieren. Diese Technologie hilft Strafverfolgungsbehörden, Verdächtige in öffentlichen Bereichen zu verfolgen, während Unternehmen sie im Bereich der Gebäudesicherheit zur Zugangskontrolle einsetzen.

Verwaltung und Moderation sozialer Medien
 

Social-Media-Plattformen nutzen Bilderkennung, um Tags auf Fotos vorzuschlagen und die Gesichter von Freunden und Familie zu identifizieren und zu erkennen. Soziale Medien verwenden auch AR-Filter, die Gesichtszüge erkennen, um virtuelle Elemente wie eine Brille oder Tierohren so zu positionieren, dass sie mit den Gesichtsbewegungen übereinstimmen.

Darüber hinaus nutzen diese Plattformen die Bilderkennung, um Inhalte zu moderieren, indem sie unangemessene Bilder herausfiltern, die Sicherheit der Plattform gewährleisten und die Benutzererfahrung verbessern.

Intelligente Brillen und Informationen in Echtzeit
 

Aufbauend auf aktuellen Augmented-Reality-Anwendungen (AR) auf Mobilgeräten können Datenbrillen, die mit Bilderkennungssoftware ausgestattet sind, Benutzern erweiterte Ansichten ihrer Umgebung bieten, indem sie Echtzeitinformationen über Objekte und Standorte überlagern.

Die AR-Technologie liefert kontextbezogene Daten zu allem, was der Benutzer ansieht, von der Identifizierung von Sehenswürdigkeiten bis zum Abrufen von Produktdetails in Stores.

Haushaltsgeräte

Die Bilderkennung in Haushaltsgeräten ermöglicht Funktionen wie die Bestandsverfolgung in intelligenten Kühlschränken, die Hinderniserkennung in Saugrobotern und die Personen- oder Objekterkennung in Sicherheitskameras.

Außerdem werden Funktionen wie die Erkennung von Stoffarten in Waschmaschinen, die Erkennung von Lebensmitteln in intelligenten Backöfen und die Gesichtsanalyse in intelligenten Spiegeln oder Babyphones unterstützt.

Lieferroboter sind für genaue und effiziente autonome Lieferungen auf Bilderkennung angewiesen, um sich in der Umgebung zurechtzufinden, Hindernisse zu erkennen und Lieferorte zu identifizieren.

Im Gegensatz dazu verwenden Roboter in Lagerhäusern und industriellen Umgebungen die gleiche Technologie zum Scannen und Abrufen von Artikeln, zur Durchführung von Qualitätsprüfungen, zum Zusammenbau von Teilen und zum Sortieren von Materialien.

Medizinische Bildgebung

Die medizinische Bildanalyse unterstützt medizinisches Fachpersonal bei der Analyse von Röntgenaufnahmen, MRTs und CT-Scans. Diese Systeme können für das menschliche Auge schwer erkennbare Anomalien erkennen, z. B. frühe Anzeichen von Lungenkrebs, Hirnschlägen oder Tumoren, sodass eine rechtzeitige Diagnose gestellt werden kann.

Merative, ehemals IBM Watson Health, wendet Bilderkennung an, um komplexe Bilddaten zu analysieren und Radiologen bei der Identifizierung kritischer Befunde zu unterstützen.

Die medizinische Bilderkennung macht Fortschritte bei der KI-gestützten Diagnostik, sodass Bilderkennungssysteme bei der Erkennung von Erkrankungen im Frühstadium mit größerer Genauigkeit unterstützen können.

Die Technologie verbessert bereits Bereiche wie die Tumorerkennung und unterstützt Spezialisten mit einem hochqualifizierten „zweiten Satz Augen“ für fortschrittliche Diagnostik, insbesondere in Bereichen, in denen kleinste Details von größter Bedeutung sind.

Optische Zeichenerkennung (OCR)

Die OCR-Technologie digitalisiert gedruckten Text durch das Scannen von Dokumenten, Büchern und Quittungen. Apps verwenden OCR, um gedruckten Text zu erkennen und in digitale Formate umzuwandeln, die Benutzer bearbeiten oder durchsuchen können. OCR war ein kritischer früher Anwendungsfall für Bilderkennung, der dazu beigetragen hat, den Weg für eine weit verbreitete Digitalisierung in allen Branchen zu ebnen.

Dokumentenverarbeitung
 

Banken und Finanzinstitute nutzen die Bilderkennung zur Automatisierung von Verifizierungsprüfungen, Ausweisen und anderen Dokumenten, zur Verringerung von Betrug und zur Optimierung des Onboarding von Kunden. Die Technologie scannt Dokumentenbilder nach wichtigen Details, authentifiziert sie und markiert Unregelmäßigkeiten zur Überprüfung.

Weiterführende Lösungen
IBM Maximo Visual Inspection

Nutzen Sie No-Code-Computer-Vision für die Automatisierung von visuellen Inspektionen.

Erfahren Sie mehr über Maximo Visual Inspection
Beratung und Services zu künstlicher Intelligenz (KI)

Die KI-Services von IBM Consulting unterstützen Sie dabei, die Art und Weise, wie Unternehmen mit KI arbeiten, neu zu denken.

Erkunden Sie die Services im Bereich der künstlichen Intelligenz
Lösungen im Bereich künstlicher Intelligenz

Setzen Sie KI in Ihrem Unternehmen ein
– mit branchenführendem Fachwissen im Bereich KI und dem umfassenden Lösungsportfolio von IBM an Ihrer Seite.

Erkunden Sie KI-Lösungen
Machen Sie den nächsten Schritt

Mit IBM Maximo Visual Inspection können Ihre Qualitätskontroll- und Inspektionsteams die Leistungsfähigkeit der KI-Funktionen von Computer Vision nutzen. Nutzen Sie das Potenzial von No-Code-Computer-Vision für die Automatisierung von visuellen Inspektionen.

Erfahren Sie mehr über Maximo Visual Inspection Produkttour starten