Startseite topics Was ist Computer Vision? Was ist Computer Vision?
Verwenden Sie maschinelles Lernen und neuronale Netze, um Computern beizubringen, Mängel und Probleme zu erkennen bevor diese den Betrieb beeinträchtigen.
Mehr zu Maximo Visual Inspection
Grafische Darstellung einer Computer-Steuertafel
Was ist Computer Vision?

Computer Vision ist ein Feld innerhalb der künstlichen Intelligenz (KI), das es Computern und System ermöglicht aussagefähige Informationen aus digitalen Bildern, Videos und anderen Visuellen Eingaben zu gewinnen – und auf Grundlage dieser Informationen Maßnahmen zu ergreifen oder Empfehlungen abzugeben. Wenn KI Computern das Denken ermöglicht, ermöglicht Computer Vision ihnen das Sehen, Beobachten und Verstehen.

Computer Vision funktioniert ähnlich wie das menschliche Sehvermögen, allerdings haben Menschen einen Vorsprung. Das menschliche Sehvermögen wurde über viele Lebenszeiten hinweg darin trainiert, Objekte zu unterscheiden, Distanzen einzuschätzen, Bewegung festzustellen sowie Unregelmäßigkeiten in einem Bild zu erkennen.

Computer Vision trainiert Maschinen in diesen Fähigkeiten, muss dies aber in wesentlich kürzerer Zeit mithilfe von Kameras, Daten und Algorithmen an Stelle von Netzhaut, Sehnerven und visuellem Cortex bewerkstelligen. Ein System, das auf Produktinspektion oder die Überwachung von Produktionsanlagen trainiert ist, kann Tausende Produkte oder Prozesse pro Minute überprüfen und kaum zu erkennende Mängel oder Probleme wahrnehmen, was menschliche Fähigkeiten schnell übertrifft.

Computer Vision wird in verschiedenen Branchen eingesetzt, von der Energie- und Versorgungswirtschaft bis hin zur Fertigungs- und Automobilindustrie – und der Markt nimmt weiter zu. Bis 2022 wird ein Volumen von 48,6 Milliarden US-Dollar erwartet.1

Wie funktioniert Computer Vision?

Computer Vision benötigt große Datenmengen. Daten werden wiederholt analysiert, bis Unterschiede festgestellt und letztendlich Bilder erkannt werden können. Soll ein Computer beispielsweise darauf trainiert werden, Autoreifen zu erkennen, muss er mit enormen Mengen an Reifenbildern und Elementen mit Reifenbezug gefüttert werden, um Unterschiede zu lernen und einen Reifen erkennen zu können, besonders einen ohne Mängel.

Dabei werden zwei wesentliche Technologien eingesetzt: eine Art des maschinellen Lernens namens Deep Learning und ein sogenanntes Convolutional Neural Network (CNN).

Maschinelles Lernen verwendet algorithmische Modelle, mit deren Hilfe ein Computer sich selbst über den Kontext visueller Daten informieren kann. Wenn genügend Daten durch das Modell gespeist werden, wird der Computer sich die Daten „ansehen" und sich selbst beibringen, ein Bild vom anderen zu unterscheiden. Algorithmen ermöglichen der Maschine ein eigenständiges Lernen, im Gegensatz zur Programmierung durch eine Person.

Ein CNN hilft einem auf maschinellem Lernen basierenden oder Deep-Learning-Modell, sich Bilder „anzusehen“, indem diese in Pixel zerlegt werden, die mit Tags oder Labeln gekennzeichnet sind. Die Label werden zur Durchführung von Konvolutionen (eine Rechenoperation bei der zwei Funktionen eine dritte ergeben) verwendet und für Vorhersagen darüber, was „gesehen" wird. Das neuronale Netz führt Konvolutionen aus und überprüft die Genauigkeit seiner Vorhersagen über mehrere Iterationen bis die Vorhersagen anfangen, sich zu bewahrheiten. Es erkennt oder sieht dann Bilder ähnlich wie Menschen.

Ähnlich wie ein Mensch, der ein Bild aus der Ferne erkennt, erkennt ein CNN zunächst harte Kanten und einfache Formen und fügt dann Informationen hinzu, während es seine Vorhersagen wiederholt. Ein CNN wird verwendet, um einzeln Bilder zu verstehen. Eine wiederkehrende neuronales Netz (recurrent neural network, RNN) wird in ähnlicher Weise für Videoanwendungen eingesetzt, um Computer dabei zu unterstützen, den Zusammenhang zwischen Bildern in einer Serie von Frames zu verstehen.

Mehr über maschinelles Lernen erfahren
Die Geschichte von Computer Vision

Wissenschaftler und Techniker arbeiten seit etwa 60 Jahren daran, Maschinen das Ansehen und Verstehen visueller Daten zu ermöglichen. Die Experimente begannen 1959, als Neurophysiologen einer Katze eine Auswahl von Bildern zeigten und versuchten, eine Korrelation mit einer Reaktion in ihrem Gehirn herzustellen. Sie fanden heraus, dass sie zuerst auf scharfe Kanten oder Linien reagierte, was aus wissenschaftlicher Sicht bedeutete, dass die Bildverarbeitung mit einfachen Formen wie geraden Kanten beginnt.(2)

Etwa zeitgleich wurde die erste Technologie zum Scannen von Bildern per Computer entwickelt und ermöglichte das Digitalisieren und Beziehen von Bildern per Computer. Ein weiterer Meilenstein wurde 1963 erreicht, als es gelang, zweidimensionale Bilder per Computer in dreidimensionale Formen umzuwandeln. In den 1960er Jahren entstand KI als akademischer Forschungsbereich, womit auch die Suche nach einer KI-Lösung für die Problemstellung menschliches Sehvermögen begann.

1974 wurde eine Technologie zur optischen Zeichenerkennung (optical character recognition, OCR) eingeführt, die Drucktexte in jedem Font oder jeder Schriftart erkennen konnte.(3)Ebenso konnte die intelligente Zeichenerkennung (intelligent character recognition, ICR) handschriftliche Texte mithilfe neuronaler Netze entschlüsseln.(4) Seitdem sind OCR und ICR in den Bereichen Dokumenten- und Rechnungsverarbeitung, Nummernschilderkennung, mobile Zahlungsmethoden, maschinelle Übersetzung und weiteren gängigen Anwendungen angekommen.

Im Jahr 1982 stellte der Neurowissenschaftler David Marr fest, dass das Sehvermögen hierarchisch aufgebaut ist und entwickelte Algorithmen, mit denen Maschinen Kanten, Ecken, Kurven und ähnlich einfache Formen erkennen sollten. Gleichzeitig entwickelte der Informatiker Kunihiko Fukushima ein Netz von Zellen, das Muster erkennen konnte. Dieses als Neocognitron bezeichnete Netz enthielt konvolutionale Ebenen in einem neuronalen Netz.

Im Jahr 2000 war die Objekterkennung Forschungsschwerpunkt und 2001 erschienen die ersten Anwendungen mit Echtzeit-Gesichtserkennung. Die Standardisierung, wie grafisch orientiert Datensätze in Tags eingeschlossen und mit Annotationen versehen werden sollten, entstand in den 2000er Jahren. Im Jahr 2010 wurde das Dataset ImageNet verfügbar. Es enthielt Millionen in Tags eingeschlossen Bilder aus tausend Objektklassen und bietet eine Grundlage für heutige CNNs und Deep- Learning-Modelle. Im Jahr 2012 nahm ein Team der University of Toronto mit einem CNN an einen Bilderkennungswettbewerb teil. Das Modell namens AlexNet, reduzierte die Fehlerrate bei der Bilderkennung deutlich. Im Zuge dieser bahnbrechenden Entwicklung sind die Fehlerraten auf nur einige wenige Prozentpunkte gefallen.(5)

Forschung zu Computer Vision Computer Vision und Multimedia bei IBM Research

Greifen Sie auf Videos, Papiere, Workshops und mehr zu.

Anwendungen von Computer Vision

Im Bereich Computer Vision wird viele geforscht, aber es geht nicht nur um Forschung. Reale Anwendungen verdeutlichen, wie wichtig Computer Vision bei Vorhaben in der Geschäftswelt, Unterhaltungsbranche, im Transport- und Gesundheitswesen sowie im täglichen Leben ist. Ein zentraler Einflussfaktor für das Wachstum dieser Anwendungen ist das leiten von grafisch orientiert Informationen die von Smartphones, Zugriffsschutz , Datenverkehr Kameras und anderen visuell digitalisiert Geräten fließen. Diese Daten könnten für den Betrieb in verschiedenen Branchen eine wichtige Rolle spielen, bleiben aktuell aber ungenutzt. Die Informationen bilden eine Testumgebung für das Training von Computer-Vision-Anwendungen und eine Ausgangsbasis für deren Einsatz in eine Reihe von menschlichen Aktivitäten:

  • IBM nutzte Computer Vision, um My Moments für das Masters-Golfturnier 2018 zu erstellen. IBM Watson sah sich hunderte Stunden Masters-Filmmaterial an und konnte Ansichten (und Geräusche) wichtiger Schläge erkennen. Er kuratierte diese wichtigen Momente und lieferte sie den Fans als personalisierte Highlights.
  • Mit Google Translate können Benutzer Ihre Smartphone-Kamera auf ein Hinweisschild in einer anderen Sprache richten und fast augenblicklich eine Übersetzung des Schilds in ihrer bevorzugten Sprache erhalten.(6)
  • Die Entwicklung von selbstfahrenden Fahrzeugen stützt sich auf Computer Vision, um visuelle Eingaben von den Kameras des Autos und anderen Sensoren zu interpretieren. Es ist unverzichtbar, andere Autos, Verkehrsschilder, Fahrbahnmarkierungen, Fußgänger Fahrräder und all die anderen visuellen Informationen im Straßenverkehr erkennen zu können.
  • IBM arbeitet in der Anwendung von Computer-Vision-Technologie mit Partnern wie Verizon zusammen, um intelligente KI in Edge-Umgebungen zu nutzen und Automobilherstellern dabei zu helfen, Qualitätsmängel festzustellen, bevor ein Fahrzeug das Werk verlässt.
Computer Vision-Beispiele

Viele Organisationen haben nicht die Ressourcen für Computer Vision-Labs und zur Erstellung von Deep-Learning-Modellen und neuralen Netzen. Möglicherweise verfügen sie auch nicht über die zur Verarbeitung riesiger Mengen visueller Daten erforderliche Computerleistung. Unternehmen wie IBM helfen mit Softwareentwicklungs-Services für Computer Vision. Diese Services liefern vordefinierte und über die Cloud verfügbare Lernmodelle – und entlasten Datenverarbeitungsressourcen. Benutzer verbinden sich über ein application programming interface (API) mit den Services und nutzen sie zur Entwicklung von Computer Vision-Anwendungen.

IBM hat auch eine Plattform für die Computer Vision eingeführt, die sowohl die Entwicklungs- als auch die Rechenressourcen berücksichtigt. IBM Maximo Visual Inspection enthält Tools, die es Fachleuten ermöglichen, Deep-Learning-Vision-Modelle zu beschriften, trainieren und bereitzustellen – ohne Fachwissen in den Bereichen Codierung oder Deep Learning. Die Vision-Modelle lassen sich in lokalen Rechenzentren, der Cloud und Edge-Geräten bereitstellen.

Während die Beschaffung von Ressourcen für die Entwicklung von Computer Vision-Anwendungen einfacher wird, bleibt eine wichtige Frage bestehen, die möglichst früh beantwortet werden: Was genau werden diese Anwendungen tun? Ein Verständnis und das Definieren konkreter Aufgaben für die Computer Vision kann Projekte und Anträge fokussieren und validieren und den Beginn erleichtern.

Hier sind einige Beispiele für etablierte Computer-Vision-Aufgaben:

  • Die Bildklassifizierung sieht ein Bild und kann es klassifizieren (ein Hund, ein Apfel, das Gesicht einer Person). Genauer gesagt ist sie in der Lage, korrekt vorherzusagen, dass ein bestimmtes Bild zu einer bestimmten Klasse gehört. Ein Anbieter für soziale Medien könnte dies beispielsweise einsetzen, um von Benutzern hochgeladene anstößige Bilder automatisch zu erkennen und auszusondern.
  • Objekterkennung kann Bild-Klassifizierungen verwenden, um eine bestimmte Klasse von Bildern zu bestimmen, und deren Erscheinen in einem Bild oder Video dann zu erkennen und tabulieren. Beispiele sind das Erkennen von Schäden an einer Fertigungsstraße oder von wartungsbedürftigen Geräten.
  • Objektverfolgung folgt einem erkannten Objekt oder protokolliert es. Dieser Vorgang wird häufig mit Bildern ausgeführt, die in Sequenz oder Echtzeit- Video Feeds aufgenommen wurden. Autonome Fahrzeuge müssen beispielsweise Objekte wie Fußgänger, andere Autos und Straßenbebauung nicht nur klassifizieren und erkennen können. Sie müssen in der Bewegung verfolgt werden, um Zusammenstöße zu vermeiden und die Straßenverkehrsordnung einzuhalten.(7)
  • Inhaltsbasierter Abruf nutzt Computer Vision zum Durchstöbern, Durchsuchen und Abrufen von Bildern aus großen Datenspeichern auf Grundlage des Inhalts der Bilder anstatt zugeordneten Metadaten-Tags. Diese Aufgabe kann auch automatische Bild-Annotationen einschließen, die das manuelle Tagging ersetzt. Diese Aufgaben können im Rahmen von digitalen Ressourcenmanagementsystemen wahrgenommen werden und die Genauigkeit von Such- und Abrufvorgängen erhöhen.
IBM Lösungen
IBM Maximo Visual Inspection

Nutzen Sie das Potenzial von Computer Vision für die Automatisierung der Inspektion – ohne Deep-Learning-Kenntnisse.

Mehr erfahren
Ressourcen IBM Research Blog

IBM Research ist eines der weltweit größten kommerziellen Forschungslabors. Weitere Informationen über branchenübergreifende Forschungsarbeit.

Ressourcen für Entwickler

Weitere Informationen zur Einführung in die visuelle Erkennung und IBM Maximo Visual Inspection. Entdecken Sie Ressourcen und Kurse für Entwickler.