Cos'è l'OCR (Optical Character Recognition)?

Cos'è l'OCR?

Il riconoscimento ottico dei caratteri (OCR) è una tecnologia che utilizza l'estrazione automatica dei dati per convertire rapidamente le immagini di testo in un formato leggibile da un dispositivo automatico.

L'OCR viene talvolta definito riconoscimento del testo. Un programma OCR estrae e riutilizza i dati da documenti scansionati, immagini fotografiche e PDF di sole immagini. Il software OCR individua le lettere sull'immagine, le trasforma in parole e quindi in frasi, consentendo così l'accesso e la modifica del contenuto originale. Inoltre, elimina il tempo sprecato nell'inserimento manuale di dati ridondanti.

I sistemi OCR utilizzano una combinazione di hardware e software per convertire documenti fisici stampati in testo leggibile da un dispositivo automatico. L'hardware, come uno scanner ottico o un circuito stampato specializzato, copia o legge il testo, quindi il software in genere gestisce l'elaborazione avanzata.

Il software OCR può sfruttare l'intelligenza artificiale (AI) per implementare metodi più avanzati di riconoscimento intelligente dei caratteri (ICR) per identificare la lingua o la scrittura. Le organizzazioni utilizzano spesso il processo l'OCR per trasformare documenti legali o storici stampati in documenti PDF in modo che gli utenti possano modificare, formattare e cercare i documenti come se fossero stati creati con un elaboratore di testi.

Come scegliere il giusto foundation model di AI

Scopri come scegliere l'approccio giusto nella preparazione dei set di dati e nell'impiego dei modelli AI, oltre a come utilizzare il framework di selezione dei modelli per bilanciare i costi delle prestazioni, i rischi e le esigenze di implementazione.

La storia dell'OCR

Nel 1974, Ray Kurzweil fondò la Kurzweil Computer Products, Inc., il cui prodotto OCR omni-font era in grado di riconoscere testo stampato praticamente in qualsiasi tipo di carattere. Ritenne che l'applicazione migliore di questa tecnologia sarebbe stata un dispositivo di machine learning (ML) per non vedenti, per cui creò un sistema di lettura in grado di leggere il testo ad alta voce in un formato text to speech. Nel 1980, Kurzweil vendette la sua azienda a Xerox, interessata a commercializzare ulteriormente la conversione di testo da carta a computer.

La tecnologia OCR divenne popolare all'inizio degli anni '90 durante la digitalizzazione dei giornali storici. Da allora, la tecnologia ha subito diversi miglioramenti. Oggi i prodotti OCR garantiscono una precisione quasi perfetta. I metodi avanzati possono automatizzare workflow complessi per l'elaborazione dei documenti.

Prima che la tecnologia OCR diventasse disponibile, l’unica opzione per formattare digitalmente i documenti era reinserire manualmente il testo. Questo inserimento manuale non solo richiede molto tempo, ma comporta anche inevitabili imprecisioni ed errori di battitura. Oggi, i servizi OCR sono ampiamente disponibili al pubblico. Ad esempio, Google Cloud Vision OCR consente di scansionare e archiviare documenti sullo smartphone.

Come funziona l'OCR?

Un software OCR utilizza uno scanner per rielaborare la forma fisica di un documento in testo digitale modificabile. Il software OCR può essere eseguito come programma indipendente, interfaccia di programmazione di applicazioni OCR o come servizio disponibile sul web.

Acquisizione di immagini: tutte le pagine del documento vengono copiate, dopodiché il motore OCR converte il documento digitale in una versione bicolore o in bianco e nero. L'immagine o la bitmap scansionata viene analizzata per individuare le parti chiare e scure. Il programma identifica quindi le parti scure come caratteri da riconoscere, mentre le aree chiare vengono identificate come sfondo.

Pre-elaborazione: l'immagine digitale viene pulita per rimuovere i pixel estranei. Questa pre-elaborazione può includere il raddrizzamento per correggere l'allineamento errato dell'immagine durante la scansione, la rimozione di regole grafiche e riquadri che facevano parte dell'immagine stampata e la determinazione dell'inclusione del testo dello script.

Riconoscimento del testo: le parti scure vengono elaborate per individuare lettere alfabetiche, cifre numeriche o simboli. Questa fase prevede in genere il targeting di un carattere, una parola o un blocco di testo alla volta. I caratteri vengono quindi identificati utilizzando uno dei due algoritmi, pattern recognition o feature recognition.

Pattern recognition (o pattern matching): il programma OCR è stato precedentemente addestrato su esempi di testo in vari tipi di carattere e formati per riconoscere i caratteri rispetto a un modello nel documento o nel file immagine scansionato. Ogni combinazione univoca di forma, dimensione e carattere è chiamata glifo. Affinché funzioni, i caratteri devono essere in un font su cui il programma OCR è già stato addestrato. Dato il numero di font in tutto il mondo e le lingue che utilizzano caratteri diversi, come l'arabo, il cinese, l'inglese, il francese, il tedesco, il greco, il giapponese, il coreano o lo spagnolo, l'addestramento su ogni combinazione di font e lingua sarebbe un enorme spreco di risorse.
Feature recognition (rilevamento o estrazione): viene utilizzato quando il programma OCR sta analizzando un tipo di carattere su cui non è stato addestrato. L'OCR applica le regole relative alle caratteristiche di una lettera o di un numero specifico per riconoscere i caratteri nel documento scansionato. Le caratteristiche includono il numero di linee angolate, intersezioni di linee, loop o curve in un carattere. Ad esempio, la lettera maiuscola "A" viene memorizzata come due linee diagonali che si incontrano con una linea orizzontale al centro. Quando un carattere viene identificato, viene convertito in un codice ASCII (American Standard Code for Information Interchange) che i sistemi informatici utilizzano per gestire ulteriori manipolazioni.

Layout recognition: un programma OCR più completo analizzerà anche la struttura dell'immagine di un documento. Divide la pagina in elementi, come blocchi di testo, tabelle o immagini. Le righe sono divise in parole e poi in caratteri. Dopo che i caratteri sono stati individuati, il programma li confronta con una serie di immagini del pattern. Dopo aver elaborato tutte le probabili corrispondenze, il programma restituisce il testo riconosciuto.

Post-elaborazione: le informazioni raccolte vengono memorizzate come file digitale, in forma modificabile o PDF. Alcuni sistemi conservano sia l'immagine di input che le versioni post-OCR per un confronto più semplice e una gestione dei documenti più completa.

Tipi di OCR

Esistono 4 tipi di programmi OCR, con un livello di sofisticazione crescente:

OCR semplice: l'analisi consiste nella corrispondenza dei pattern carattere per carattere, confrontando i caratteri scansionati con i glifi memorizzati. Con così tante potenziali combinazioni di caratteri e lingue, i tipi di documenti che possono essere analizzati sono limitati.

Optical Mark Recognition (OMR): per identificare le caselle spuntate e altre marcature, come i riquadri nei sondaggi o una firma su un modulo, oltre a loghi, simboli e filigrane. Tutti possono essere identificati facendo corrispondere le immagini memorizzate, come nell'OCR semplice.

Riconoscimento intelligente dei caratteri (ICR): come accennato in precedenza, l'ICR sfrutta la potenza dell'AI. Utilizzando il machine learning o il deep learning, il programma OCR impara a leggere proprio come fanno gli esseri umani: attraverso una pratica e un addestramento continui. Una rete neurale esamina ripetutamente il testo alla ricerca di attributi distintivi: la posizione di curve, intersezioni, linee e loop.

Riconoscimento intelligente delle parole: si tratta della naturale evoluzione del precedente riconoscimento ICR, ma in questo caso l'AI è stata addestrata a riconoscere una parola in una singola immagine, il che la rende più veloce.

I vantaggi dell'OCR

I vantaggi dell'utilizzo della tecnologia OCR includono la capacità di:

Tagliare i costi riducendo o eliminando gli input manuali ridondanti.

Semplificare i workflow con l'immissione di documenti prestampati o moduli scritti e velocizzare la ricerca con dati digitali ricercabili.
Automatizzare il routing dei documenti, l'elaborazione dei contenuti e la preparazione per il text mining.
Risparmiare sui costi di archiviazione di un numero ancora maggiore di documenti cartacei.
Centralizzare e proteggere i set di dati contro incendi, effrazioni e lo smarrimento dei documenti nei caveau delle banche.
Facilitare l'accesso ai dati per il personale e i clienti ipovedenti.
Migliorare il servizio fornendo ai dipendenti le informazioni più aggiornate e accurate.

Casi d'uso dell'OCR

Il caso d'uso più noto dell'OCR è la conversione di documenti cartacei stampati in documenti di testo leggibili da un dispositivo automatico. Dopo che un documento cartaceo scansionato è stato sottoposto all'elaborazione OCR, il testo del documento può essere modificato con un elaboratore di testi come Microsoft Word o Google Docs. Diversi casi d'uso possono accelerare i workload in molti settori, tra cui l'istruzione, la finanza, la sanità, la logistica e i trasporti, l'elaborazione e il recupero di documenti di prestito, cartelle cliniche dei pazienti, moduli assicurativi, etichette, fatture e ricevute.

L'OCR viene spesso utilizzato come tecnologia nascosta, alla base di molti sistemi e servizi ben noti nella nostra vita quotidiana. Casi d'uso importanti, ma meno noti, della tecnologia OCR includono l'automazione dell'inserimento dati, l'assistenza a persone non vedenti e ipovedenti e l'indicizzazione di documenti per i motori di ricerca, come passaporti, numeri di targa, fatture, estratti conto bancari, elaborazione e trascrizione degli assegni, biglietti da visita e riconoscimento automatico dei numeri di targa.

L'OCR consente l'ottimizzazione del big data modeling convertendo documenti cartacei e scansionati in file PDF leggibili da un dispositivo automatico e ricercabili. L'elaborazione e il recupero di informazioni preziose richiedono innanzitutto l'applicazione dell'OCR nei documenti in cui non sono già presenti livelli di testo.

Con il riconoscimento del testo OCR, i documenti scansionati possono essere integrati in un sistema di big data che è quindi in grado di leggere i dati dei clienti da estratti conto bancari, contratti e altri importanti documenti stampati. Anziché lasciare che i dipendenti esaminino innumerevoli documenti di immagine e inseriscano manualmente gli input in un workflow automatizzato di big data processing, le organizzazioni possono utilizzare l'OCR per automatizzare tale processo nella fase di input del data mining. Il software OCR è in grado di estrarre il testo visualizzato nelle immagini, salvare il file di testo e supportare più formati, tra cui jpg, jpeg, png, bmp, tiff e pdf.

Gli ultimi progressi nell'OCR

L'OCR è notevolmente avanzato rispetto ai primi sistemi aziendali nel 1974 e continua a progredire. I programmi OCR di livello superiore consentono di estrarre informazioni chiave da documenti in condizioni non ottimali, ad esempio con caratteri irregolari, risoluzione insufficiente, cattiva illuminazione dovuta all'acquisizione mobile e con diversi colori e sfondi. 

Incorporando la computer vision e l'elaborazione del linguaggio naturale, una migliore rappresentazione delle informazioni e l'ottimizzazione dei modelli, le aziende possono ora godere di una comprensione dei documenti all'avanguardia. I miglioramenti possono includere l'analisi del layout e dell'ordine di lettura in documenti complessi, la comprensione delle immagini e la loro rappresentazione come grafici e diagrammi. Alcuni programmi OCR ora si basano sull'AI generativa che aiuta a strutturare i dati dei documenti ancora più velocemente. Una “vecchia” tecnologia continua ad apprendere nuovi trucchi.

Soluzioni correlate

IBM® Watson Discovery

Accelera le decisioni e i processi di business con una piattaforma intelligente basata sull'AI per la comprensione dei documenti e l'analisi dei contenuti.

Scopri IBM Watson Discovery

IBM® FileNet Capture

Scansiona o importa i file per acquisire e memorizzare informazioni digitali e cartacee in vari formati.

Esplora IBM FileNet Capture

IBM for Business Automation

Processi più veloci e tempi di attesa dei clienti più brevi con l'automazione basata sull'AI.

Esplora IBM Cloud Pak for Business Automation

Risorse

Cos'è la computer vision?

Se l'AI consente ai computer di pensare, la computer vision consente loro di vedere, osservare e capire.

Che cos'è il task mining?

Il task mining esamina i dati di interazione degli utenti, noti anche come dati desktop, per valutare l'efficienza di un'attività all'interno di un processo più ampio.

Cos'è il serverless computing?

L'OCR può aiutare con l'elaborazione dei dati di testo, immagini e video strutturati per svolgere diverse attività, come l'arricchimento, la trasformazione, la convalida e la pulizia dei dati.

Esploriamo la nuova tecnologia OCR di IBM

L'OCR, che continua a compiere notevoli progressi nella comprensione dei documenti, consente ora ai modelli di analizzare il layout e l'ordine di lettura di documenti complessi, nonché di riconoscere e rappresentare elementi visivi come grafici, tabelle e diagrammi.

Fasi successive

Scopri come IBM Watson Discovery può accelerare le decisioni e i processi aziendali con una piattaforma di comprensione intelligente dei documenti e di analisi dei contenuti basata sull'AI.

Scopri IBM Watson Discovery