Qu’est-ce que l’OCR (reconnaissance optique de caractères) ?

Qu’est-ce que l’OCR ?

La reconnaissance optique de caractères (OCR) est une technologie qui extrait automatiquement les données pour convertir rapidement les images de texte dans un format lisible par les machines.

Parfois appelé « reconnaissance de texte », l’OCR permet d’extraire et de réaffecter les données à partir de documents numérisés, d’images prises avec un appareil photo et de fichiers PDF contenant uniquement des images. Le logiciel OCR distingue les lettres figurant dans les images, forme des mots, puis des phrases pour permettre l’accès au contenu d’origine, ainsi que sa modification. Il élimine les tâches de saisie manuelle répétitives.

Les systèmes OCR associent matériel et logiciel pour convertir les documents imprimés sur supports physiques en texte lisible par les machines. Le matériel, tel qu’un scanner optique ou une carte de circuit imprimé spécialisée, copie ou lit le texte, puis le logiciel se charge du traitement avancé.

Les logiciels OCR peuvent exploiter l’intelligence artificielle (IA) pour appliquer des méthodes de reconnaissance intelligente de caractères (ICR) plus avancées et identifier ainsi les langues ou l’écriture manuscrite. Les entreprises font souvent appel à l’OCR pour convertir les documents juridiques ou historiques imprimés au format PDF. Les utilisateurs peuvent ainsi modifier, mettre en forme et interroger les documents comme s’ils avaient été créés avec un logiciel de traitement de texte.

Choisir le bon modèle de fondation

Découvrez comment bien choisir votre approche pour préparer vos jeux de données et employer vos modèles d’IA, et comment utiliser le cadre de sélection de modèles pour concilier performance, coûts, gestion des risques et besoins de déploiement.

L’histoire de l’OCR

En 1974, Ray Kurzweil a lancé Kurzweil Computer Products, Inc. et son produit OCR omni-police capable de reconnaître les textes imprimés, quelle que soit la police utilisée. Convaincu que la meilleure application de cette technologie serait un appareil de machine learning (ML) pour les malvoyants, il a créé une machine capable de lire les textes à haute voix dans un format Text to Speech. En 1980, Kurzweil a vendu son entreprise à Xerox, qui souhaitait explorer davantage la conversion des textes papier au format numérique.

La technologie OCR s’est popularisée au début des années 1990, avec la numérisation des journaux historiques. Depuis lors, cette technologie ne cesse de s’améliorer. Aujourd’hui, les produits offrent une précision OCR proche de la perfection. Ces méthodes avancées permettent d’automatiser les workflows de traitement de documents les plus complexes.

Avant l’arrivée de la technologie OCR, la seule option pour formater numériquement les documents était de saisir les textes manuellement. En plus d’être répétitive et chronophage, cette tâche entraîne inévitablement des inexactitudes et des erreurs de frappe. Aujourd’hui, les services OCR sont largement accessibles au public. Par exemple, Google Cloud Vision OCR permet la numérisation et le stockage des documents sur votre smartphone.

L’OCR : comment ça marche ?

Le logiciel OCR utilise un scanner pour retraiter la forme physique d’un document en texte numérique modifiable. Il peut fonctionner comme un programme autonome, une interface de programmation des applications OCR ou un service Web.

Acquisition d’images : toutes les pages du document sont copiées, puis le moteur OCR convertit le document numérique en une version bicolore ou en noir et blanc. L’image ou le bitmap numérisé est analysé pour déterminer les parties claires et sombres. Le programme identifie ensuite les parties sombres comme des caractères qui doivent être reconnus, tandis que les zones claires sont identifiées comme arrière-plan. ’

Prétraitement : l’image numérique est nettoyée pour éliminer les pixels superflus. Il peut s’agir de corriger l’alignement de l’image lors de la numérisation, de supprimer les règles graphiques et les cases figurant dans l’image imprimée et de déterminer si un texte de script est inclus.

Reconnaissance de texte : les parties sombres sont traitées pour identifier les lettres, les chiffres ou les symboles. Cette étape consiste généralement à cibler un caractère, un mot ou un bloc de texte à la fois. Les caractères sont ensuite identifiés à l’aide de l’un de ces deux algorithmes : la reconnaissance de motifs ou la reconnaissance de caractéristiques.

Reconnaissance de motifs (ou correspondance de motifs) : le programme OCR a été entraîné au préalable sur des exemples de texte dans différents formats et polices pour reconnaître les caractères en les comparant à un modèle présent dans le document numérisé ou dans le fichier image. Chaque combinaison de formes, d’échelles et de polices est appelée glyphe. Pour que cela fonctionne, les caractères doivent afficher la police sur laquelle le programme OCR a été entraîné. Compte tenu du nombre de polices disponibles et de langues qui utilisent des caractères différents, comme l’arabe, le chinois, l’anglais, le français, l’allemand, le grec, le japonais, le coréen et l’espagnol, entraîner le programme sur chaque combinaison de polices et de langues représenterait une énorme charge de travail pour le système.
Reconnaissance des caractéristiques (détection ou extraction) : fonctionnalité utilisée lorsque le programme OCR analyse une police sur laquelle il n’a pas été entraîné. L’OCR applique les règles associées aux caractéristiques d’une lettre ou d’un chiffre donnés pour reconnaître les caractères dans le document numérisé. Ces caractéristiques comprennent le nombre de lignes angulaires, d’intersections de lignes, de boucles ou de courbes présentes dans un caractère. Par exemple, la lettre « A » majuscule est stockée sous la forme de deux lignes diagonales qui se rejoignent avec une ligne horizontale au milieu. Les caractères identifiés sont convertis en code ASCII (American Standard Code for Information Interchange), sur lequel les systèmes informatiques s’appuient pour gérer les manipulations ultérieures.

Reconnaissance de la mise en page : les programmes OCR plus complets analysent également la structure des images contenues dans le document. Ils divisent la page en éléments (par exemple, blocs de texte, tableaux ou images). Les lignes sont divisées en mots, puis en caractères. Une fois les caractères isolés, le programme les compare avec un ensemble d’images de motifs. Après avoir traité toutes les correspondances probables, le programme renvoie le texte reconnu.

Post-traitement: les informations recueillies sont stockées au format numérique : fichier modifiable ou PDF. Certains systèmes conservent simultanément l’image d’entrée et les versions post-OCR pour faciliter la comparaison et une gestion plus complète des documents.

Types d’OCR

Il existe quatre types de programmes OCR, avec des niveaux de complexité différents :

OCR simple : l’analyse consiste à mettre en correspondance les modèles caractère par caractère, en comparant les caractères numérisés aux glyphes stockés. Vu le nombre important de combinaisons de polices et de langues possibles, les types de documents qui peuvent être analysés sont limités.

Reconnaissance optique de marques (OMR) : ce type de programme permet d’identifier les cases cochées, ainsi que d’autres marques comme les bulles dans les sondages ou une signature sur un formulaire, mais aussi les logos, les symboles et les filigranes. Pour être identifiés, ces éléments sont comparés aux images stockées, comme avec un programme OCR simple.

Reconnaissance intelligente de caractères (ICR) : comme mentionné précédemment, l’ICR exploite la puissance de l’IA. Grâce au ML ou à l’apprentissage en profondeur, le programme OCR apprend à lire comme un humain, grâce à une pratique et à un entraînement continus. Un réseau neuronal examine le texte de manière répétée à la recherche d’attributs distinctifs : emplacement des courbes, intersections, lignes et boucles.

Reconnaissance intelligente des mots : dans la continuité de la reconnaissance ICR, l’IA est désormais entraînée à reconnaître les mots dans une image pour accélérer le processus.

Les avantages de l’OCR

Voici quelques-uns des avantages de la technologie OCR :

Réduire les coûts en diminuant ou en éliminant les tâches répétitives de saisie manuelle.

Rationaliser le workflows grâce à la saisie de documents pré-imprimés ou de formulaires écrits, et accélérer la recherche grâce aux données numériques interrogeables.
Automatiser l’acheminement des documents, le traitement du contenu et la préparation à des fins d’exploration de texte.
Éviter les dépenses liées au stockage des documents papier.
Centraliser et sécuriser les jeux de données pour les protéger contre le risque d’incendie, d’effraction et de perte (documents stockés dans les coffres-forts des banques).
Faciliter l’accès aux données aux personnes malvoyantes (personnel et clients).
Améliorer le service en fournissant aux équipes des informations exactes et à jour.

Cas d’utilisation de l’OCR

Le cas d’utilisation le plus connu de l’OCR est la conversion des documents papier imprimés en documents texte lisibles par les machines. Une fois le document papier numérisé soumis au traitement OCR, son texte peut être modifié à l’aide d’un logiciel de traitement de texte comme Microsoft Word ou Google Docs. Les différents cas d’utilisation permettent d’accélérer les workloads de nombreux secteurs : éducation, finance, santé, logistique, transport, traitement et récupération des documents de prêt, dossiers médicaux, formulaires d’assurance, étiquettes, factures et reçus.

Souvent discrète, la technologie OCR alimente de nombreux systèmes et services bien connus de notre quotidien. Parmi les cas d’utilisation moins connus, mais non moins importants de la technologie OCR, citons l’automatisation de la saisie de données, l’assistance aux personnes aveugles ou malvoyantes, l’indexation des documents pour les moteurs de recherche (passeports, plaques d’immatriculation, factures, relevés bancaires, traitement et transcription des chèques, cartes de visite) et la reconnaissance automatique des plaques d’immatriculation.

L’OCR permet d’optimiser la modélisation des big data en convertissant les documents papier et les images numérisées en fichiers PDF lisibles par les machines et interrogeables. Le traitement et la récupération d’informations importantes impliquent tout d’abord l’application de l’OCR aux documents où les calques de texte ne sont pas déjà présents.

Grâce à la reconnaissance de texte OCR, les documents numérisés peuvent être intégrés dans un système de big data qui est ensuite capable de lire les données clients à partir de relevés bancaires, de contrats et d’autres documents imprimés importants. Au lieu de demander aux équipes d’examiner d’innombrables documents image et d’introduire manuellement les entrées dans un workflow de traitement du big data automatisé, les entreprises peuvent s’appuyer sur l’OCR pour automatiser ce processus lors de l’étape de saisie de l’exploration des données. Les logiciels OCR ont été conçus pour extraire le texte présent dans les images, enregistrer le fichier texte et prendre en charge plusieurs formats, notamment jpg, jpeg, png, bmp, tiff et pdf.

Dernières avancées en matière d’OCR

La technologie OCR a considérablement progressé depuis les premiers systèmes d’entreprise en 1974 et les avancées se poursuivent. Des programmes OCR de qualité supérieure peuvent permettre d’extraire des informations clés à partir de documents dans des conditions sous-optimales, telles que des polices irrégulières, une résolution insuffisante, un mauvais éclairage dû à la capture mobile et des couleurs et arrière-plans variés. 

En associant vision par ordinateur, traitement automatique du langage naturel, représentation améliorée de l’information et optimisation des modèles, les entreprises s’offrent désormais un niveau de compréhension des documents inégalé. Parmi les améliorations apportées, citons l’analyse de la mise en page et de l’ordre de lecture dans les documents complexes, la compréhension des visuels et leur représentation sous forme de graphiques et de diagrammes. Certains programmes OCR sont désormais alimentés par l’IA générative pour structurer les données des documents encore plus rapidement. Une technologie « ancienne » continue d’apprendre de nouvelles astuces.

Solutions connexes

IBM Watson Discovery

Accélérez la prise de décision, ainsi que vos processus métier, grâce à une plateforme intelligente et optimisée par l’IA pour améliorer la compréhension des documents et l’analyse des contenus.

Découvrir IBM Watson Discovery

IBM FileNet Capture

Numérisez ou importez des fichiers pour capturer et stocker les informations numériques et papier dans divers formats.

Découvrir IBM FileNet Capture

IBM Cloud Pak for Business Automation

Une automatisation alimentée par l’IA pour accélérer les processus et écourter l’attente des clients.

Découvrir IBM Cloud Pak for Business Automation

Ressources

Qu’est-ce que la vision par ordinateur ?

Si l’IA permet aux ordinateurs de réfléchir, la vision par ordinateur leur permet de voir, d’observer et de comprendre. 

Qu’est-ce que le task mining ?

Le task mining examine les données d’interaction utilisateur, également appelées données de bureau, afin d’évaluer l’efficacité d’une tâche au sein d’un processus plus vaste.

Qu’est-ce que l’informatique sans serveur ?

La technologie OCR facilite le traitement des textes structurés, images et vidéos pour effectuer des tâches comme l’enrichissement, la transformation, la validation et le nettoyage des données.

Découvrir la nouvelle technologie OCR d’IBM

Pensée pour offrir un niveau de compréhension des documents inégalé, la technologie OCR permet désormais aux modèles d’analyser la mise en page et l’ordre de lecture des documents complexes, de comprendre les éléments visuels et de les représenter sous forme de tracés, de graphiques et de diagrammes.

Passez à l’étape suivante

Découvrez comment IBM Watson Discovery associe compréhension des documents et analyse des contenus alimentée par l’IA pour accélérer la prise de décision, ainsi que les processus métier.

Découvrir IBM Watson Discovery