Was ist OCR (Optical Character Recognition)?

Was ist OCR?

Die optische Zeichenerkennung (OCR) ist eine Technologie, die automatisierte Datenextraktion nutzt, um als Bild vorliegenden Text schnell in ein maschinenlesbares Format umzuwandeln.

OCR wird manchmal als Texterkennung bezeichnet. Ein OCR-Programm extrahiert und verwendet Daten aus gescannten Dokumenten, Kamerabildern und reinen Bild-PDFs. Die OCR-Software erkennt die Buchstaben auf dem Bild, fügt sie zu Wörtern zusammen und ordnet die Wörter dann in Sätzen an, wodurch der Zugriff auf den ursprünglichen Inhalt und dessen Bearbeitung ermöglicht wird. Außerdem entfällt der unnötige Aufwand für die manuelle Dateneingabe.

OCR-Systeme verwenden eine Kombination aus Hardware und Software, um physische, gedruckte Dokumente in maschinenlesbaren Text umzuwandeln. Die Hardware, z. B. ein optischer Scanner oder eine spezielle Platine, kopiert oder liest den Text, und die Software übernimmt in der Regel die weitere Verarbeitung.

OCR-Software kann künstliche Intelligenz (KI) nutzen, um fortschrittlichere Methoden der intelligenten Zeichenerkennung (ICR) zur Identifizierung von Sprachen oder Handschriften zu implementieren. Unternehmen nutzen häufig den OCR-Prozess, um gedruckte juristische oder historische Dokumente in PDF-Dokumente umzuwandeln, sodass die Benutzer die Dokumente wie in einem Textverarbeitungsprogramm bearbeiten, formatieren und durchsuchen können.

So wählen Sie das richtige Foundation Model für die KI

Erfahren Sie, wie Sie bei der Vorbereitung von Datensätzen und dem Einsatz von KI-Modellen den richtigen Ansatz wählen und wie Sie das Modellauswahl-Framework nutzen, um Leistungskosten, Risiken und Bereitstellungsanforderungen in Einklang zu bringen.

Die Geschichte von OCR

1974 gründete Ray Kurzweil die Firma Kurzweil Computer Products, Inc., deren Omni-Font-OCR-Produkt Text in praktisch jeder Schriftart erkennen konnte. Er entschied, dass sich diese Technologie am besten in einem Gerät für maschinelles Lernen (ML) für Sehbehinderte anwenden ließe, und entwickelte daher eine Lesemaschine, die Texte in einem Text-to-Speech-Format vorlesen konnte. Im Jahr 1980 verkaufte Kurzweil sein Unternehmen an Xerox, das an der weiteren Kommerzialisierung der Textkonvertierung von Papier zum Computer interessiert war.

Die OCR-Technologie wurde Anfang der 1990er Jahre populär, als historische Zeitungen digitalisiert wurden. Seitdem wurde die Technologie mehrfach verbessert. Heute können die Produkte eine nahezu perfekte OCR-Genauigkeit gewährleisten. Fortschrittliche Methoden können komplexe Workflows zur Dokumentenverarbeitung automatisieren.

Bevor die OCR-Technologie verfügbar wurde, bestand die einzige Möglichkeit, Dokumente digital zu formatieren, darin, den Text manuell erneut einzugeben. Die redundante Eingabe ist nicht nur zeitaufwändig, sondern bringt auch unvermeidliche Ungenauigkeiten und Tippfehler mit sich. Heute sind OCR-Dienste für die Öffentlichkeit weit verbreitet. Mit Google Cloud Vision OCR können Sie beispielsweise Dokumente scannen und auf Ihrem Smartphone speichern.

Wie funktioniert OCR?

OCR-Software verwendet einen Scanner, um die physische Form eines Dokuments in editierbaren, digitalen Text umzuwandeln. Die OCR-Software kann als eigenständiges Programm, OCR-Anwendungsprogrammierschnittstelle oder webbasierter Dienst ausgeführt werden.

Bilderfassung: Alle Dokumentseiten werden kopiert und anschließend wandelt die OCR-Engine das digitale Dokument in eine zweifarbige oder schwarz-weiße Version um. Das eingescannte Bild oder die Bitmap wird auf helle und dunkle Bereiche analysiert. Das Programm identifiziert dann die dunklen Bereiche als Zeichen, die erkannt werden müssen, während helle Bereiche als Hintergrund identifiziert werden.

Vorverarbeitung: Das digitale Bild wird bereinigt, um überflüssige Pixel zu entfernen. Diese Vorverarbeitung kann das Entzerren umfassen, um eine falsche Ausrichtung des Bildes beim Scannen zu korrigieren, das Entfernen von Grafiklinien und -rahmen, die Teil des gedruckten Bildes waren, und die Feststellung, ob handschriftlicher Text enthalten ist.

Texterkennung: Die dunklen Teile werden verarbeitet, um Buchstaben, Ziffern oder Symbole zu finden. In dieser Phase geht es in der Regel darum, jeweils ein Zeichen, ein Wort oder einen Textblock gezielt auszuwählen. Die Zeichen werden dann mithilfe eines von zwei Algorithmen identifiziert, entweder der Mustererkennung oder der Merkmalserkennung.

Mustererkennung (oder Musterabgleich): Das OCR-Programm wurde zuvor an Textbeispielen in verschiedenen Schriftarten und Formaten trainiert, um Zeichen im Vergleich zu einer Vorlage im gescannten Dokument oder in der Bilddatei zu erkennen. Jede einzigartige Kombination aus Form, Maßstab und Schriftart wird als Glyphe bezeichnet. Damit dies funktioniert, müssen die Zeichen in einer Schriftart vorliegen, auf die das OCR-Programm bereits trainiert wurde. Angesichts der Anzahl von Schriftarten weltweit und Sprachen, die unterschiedliche Zeichen verwenden, wie Arabisch, Chinesisch, Englisch, Französisch, Deutsch, Griechisch, Japanisch, Koreanisch oder Spanisch, wäre das Training in jeder Kombination aus Schriftart und Sprache eine enorme Systembelastung.
Merkmalserkennung (Erkennung oder Extraktion): Dies wird verwendet, wenn das OCR-Programm eine Schriftart analysiert, auf die es nicht trainiert wurde. OCR wendet Regeln bezüglich der Merkmale eines bestimmten Buchstabens oder einer bestimmten Zahl an, um Zeichen im gescannten Dokument zu erkennen . Zu den Merkmalen gehören die Anzahl der abgewinkelten Linien, Linienschnitte, Schleifen oder Kurven in einem Zeichen. Beispielsweise wird der Großbuchstabe „A“ als zwei diagonale Linien gespeichert, die in der Mitte mit einer horizontalen Linie verbunden sind. Wenn ein Zeichen identifiziert wird, wird es in einen ASCII-Code (American Standard Code for Information Interchange) umgewandelt, den Computersysteme für weitere Manipulationen verwenden.

Layout-Erkennung: Ein vollständigeres OCR-Programm analysiert auch die Struktur eines Dokumentbildes. Es unterteilt die Seite in Elemente wie Textblöcke, Tabellen oder Bilder. Die Zeilen sind in Wörter und dann in Zeichen unterteilt. Nachdem die Zeichen herausgefiltert wurden, vergleicht das Programm sie mit einer Reihe von Musterbildern. Nach der Verarbeitung aller wahrscheinlichen Übereinstimmungen gibt das Programm den erkannten Text wieder.

Nachbearbeitung: Die gesammelten Informationen werden als digitale Datei gespeichert, entweder in einer bearbeitbaren Form oder als PDF. Einige Systeme behalten sowohl das Eingabebild als auch die Post-OCR-Versionen für einen einfacheren Vergleich und eine umfassendere Dokumentenverwaltung bei.

Arten von OCR

Es gibt 4 Arten von OCR-Programmen, die immer weiter verbessert werden:

Einfache OCR: Die Analyse erfolgt durch Mustervergleich Zeichen für Zeichen, wobei gescannte Zeichen mit den gespeicherten Glyphen verglichen werden. Angesichts der Vielzahl möglicher Schriftart- und Sprachkombinationen sind die Arten von Dokumenten, die analysiert werden können, begrenzt.

Optical Mark Recognition (OMR): Zum Identifizieren von Kontrollkästchen und anderen Markierungen, z. B. Blasen in Umfragen oder einer Unterschrift auf einem Formular, sowie von Logos, Symbolen und Wasserzeichen. Alle können durch Abgleich mit gespeicherten Bildern identifiziert werden, wie bei einfacher OCR.

Intelligente Zeichenerkennung (ICR): Wie bereits erwähnt, bringt ICR die Leistungsfähigkeit der KI ins Spiel. Durch den Einsatz von ML oder Deep Learning lernt das OCR-Programm genauso zu lesen wie Menschen: durch kontinuierliches Üben und Training. Ein neuronales Netz überprüft den Text wiederholt und sucht nach markanten Merkmalen: den Positionen von Kurven, Schnittpunkten, Linien und Schleifen.

Intelligente Worterkennung: Dies ist die natürliche Weiterentwicklung der vorherigen ICR-Erkennung, aber jetzt wurde die KI darauf trainiert, ein Wort in einem einzigen Bild zu erkennen, was es letztendlich schneller macht.

Die Vorteile von OCR

Der Einsatz der OCR-Technologie bietet Ihnen folgende Vorteile:

Senken Sie die Kosten, indem Sie redundante manuelle Eingaben reduzieren oder eliminieren.

Optimieren Sie Workflows mit der Eingabe von vorgedruckten Dokumenten oder schriftlichen Formularen und beschleunigen Sie die Recherche mit durchsuchbaren digitalen Daten.
Automatisieren Sie die Dokumentenweiterleitung, Inhaltsverarbeitung und -vorbereitung für Text-Mining.
Sparen Sie die Kosten für die Speicherung von noch mehr Papierunterlagen.
Zentralisieren und sichern Sie Datensätze zum Schutz vor Bränden, Einbrüchen und dem Verlust von Dokumenten in Banktresoren.
Ermöglichen Sie sehbehinderten Mitarbeitern und Kunden einen besseren Zugriff auf Daten.
Verbessern Sie den Service, indem Sie Ihren Mitarbeitern die aktuellsten und genauesten Informationen zur Verfügung stellen.

OCR-Anwendungsfälle

Der bekannteste Anwendungsfall für OCR ist die Umwandlung gedruckter Papierdokumente in maschinenlesbare Textdokumente. Nachdem ein gescanntes Papierdokument die OCR-Verarbeitung durchlaufen hat, kann der Text des Dokuments mit einem Textverarbeitungsprogramm wie Microsoft Word oder Google Docs bearbeitet werden. Zahlreiche Anwendungsfälle können die Workloads in zahlreichen Branchen beschleunigen, darunter Bildung, Finanzen, Gesundheitswesen, Logistik und Transport sowie die Verarbeitung und Abfrage von Kreditunterlagen, Patientenakten, Versicherungsformularen, Etiketten, Rechnungen und Quittungen.

OCR wird oft als verdeckt arbeitende Technologie eingesetzt, die viele bekannte Systeme und Dienste in unserem täglichen Leben antreibt. Zu den wichtigen, aber weniger bekannten Anwendungsfällen für die OCR-Technologie gehören die Automatisierung der Dateneingabe, die Unterstützung blinder und sehbehinderter Personen und die Indizierung von Dokumenten für Suchmaschinen, wie Reisepässe, Nummernschilder, Rechnungen, Kontoauszüge, Scheckverarbeitung und -transkription, Visitenkarten und automatische Nummernschilderkennung.

OCR ermöglicht die Optimierung der Big-Data-Modellierung, indem Papier- und gescannte Bilddokumente in maschinenlesbare, durchsuchbare PDF-Dateien umgewandelt werden. Das Verarbeiten und Abrufen wertvoller Informationen erfordert zunächst die Anwendung von OCR in Dokumenten, in denen noch keine Textebenen vorhanden sind.

Mit OCR-Texterkennung können gescannte Dokumente in ein Big-Data-System integriert werden, das dann in der Lage ist, Kundendaten aus Kontoauszügen, Verträgen und anderen wichtigen gedruckten Dokumenten auszulesen. Statt Mitarbeiter zu beauftragen, unzählige Bilddokumente zu prüfen und die Eingaben manuell in einen automatisierten Big-Data-Workflow einzugeben, können Unternehmen OCR verwenden, um diesen Prozess in der Eingabephase des Data Mining zu automatisieren. OCR-Software kann Text aus Bildern extrahieren, die Textdatei speichern und mehrere Formate unterstützen, darunter JPG, JPEG, PNG, BMP, Tiff und PDF.

Neueste Fortschritte in der OCR

OCR hat sich seit den ersten Geschäftssystemen im Jahr 1974 deutlich weiterentwickelt und verzeichnet kontinuierliche Fortschritte. Erstklassige OCR-Programme können wichtige Erkenntnisse aus Dokumenten unter suboptimalen Bedingungen extrahieren, wie z. B. unregelmäßige Schriftarten, unzureichende Auflösung, schlechte Beleuchtung bei der mobilen Erfassung und verschiedene Farben und Hintergründe. 

Durch die Einbindung von Computer Vision und die Verarbeitung natürlicher Sprache, einer verbesserten Informationsdarstellung und Modelloptimierung können Unternehmen jetzt von hochmodernem Dokumentenverständnis profitieren. Verbesserungen können die Analyse von Layout und Lesereihenfolge in komplexen Dokumenten umfassen, um Visuals zu verstehen und sie als Diagramme und Tabellen darzustellen. Einige OCR-Programme basieren mittlerweile auf generativer KI, um Dokumentendaten noch schneller zu strukturieren. Eine „alte“ Technologie lernt ständig neue Tricks.

Weiterführende Lösungen

IBM® Watson Discovery

Beschleunigen Sie Geschäftsentscheidungen und -prozesse mit einer KI-gestützten Plattform für intelligentes Dokumentenverständnis und Inhaltsanalyse.

IBM Watson Discovery kennenlernen

IBM FileNet Capture

Scannen oder importieren Sie Dateien, um digitale und papierbasierte Informationen in verschiedenen Formaten zu erfassen und zu speichern.

IBM® FileNet Capture erkunden

IBM Cloud Pak for Business Automation

Schnellere Prozesse und kürzere Wartezeiten für Kunden mit KI-gestützter Automatisierung.

IBM Cloud Pak for Business Automation kennenlernen

Ressourcen

Was ist Computer Vision?

Während KI Computer zum Denken befähigt, ermöglicht Computer Vision ihnen das Sehen, Beobachten und Verstehen. 

Was ist Task Mining?

Beim Task Mining werden Daten zur Benutzerinteraktion, auch bekannt als Desktop-Daten, ausgewertet, um die Effizienz einer Aufgabe innerhalb eines größeren Prozesses zu beurteilen.

Was ist Serverless Computing?

OCR kann bei der Datenverarbeitung von strukturiertem Text, Bildern und Videos für Aufgaben wie Datenanreicherung, -transformation, -validierung und -bereinigung helfen.

Die neue OCR-Technologie von IBM erkunden

OCR treibt den Stand der Technik beim Dokumentenverständnis voran und ermöglicht es Modellen nun, das Layout und die Lesereihenfolge in komplexen Dokumenten zu analysieren sowie visuelle Elemente zu verstehen und darzustellen, einschließlich Diagrammen, Tabellen und Schaubildern.

Machen Sie den nächsten Schritt

Erfahren Sie, wie IBM® Watson Discovery Geschäftsentscheidungen und -prozesse mit einer KI-gestützten Plattform für intelligentes Dokumentenverständnis und Inhaltsanalyse beschleunigen kann.

IBM Watson Discovery kennenlernen