Cos'è il riconoscimento vocale?

Il riconoscimento vocale, noto anche come riconoscimento vocale automatico (automatic speech recognition, ASR), riconoscimento vocale del computer o speech-to-text, è una funzione che consente a un programma di convertire il parlato umano in un formato scritto. Sebbene comunemente confuso con il riconoscimento della voce, il riconoscimento vocale si concentra sulla conversione del parlato da un formato verbale ad un formato scritto, mentre il riconoscimento della voce cerca solo di identificare la voce di un singolo utente.

IBM ha avuto un ruolo di primo piano nel riconoscimento vocale fin dal suo inizio, con il rilascio di "Shoebox" nel 1962. Questa macchina aveva la capacità di riconoscere 16 parole diverse, facendo progredire il lavoro iniziale dei Bell Labs degli anni '50. Tuttavia, IBM non si è fermata lì, ma ha continuato a innovare nel corso degli anni, lanciando l'applicazione VoiceType Simply Speaking nel 1996. Questo software di riconoscimento vocale aveva un vocabolario di 42.000 parole, supportava l'inglese e lo spagnolo, e includeva un dizionario ortografico di 100.000 parole. Mentre la tecnologia vocale aveva un vocabolario limitato nei primi tempi, oggi è utilizzata in un ampio numero di settori, quali quelli di automotive, tecnologia e assistenza sanitaria. Negli ultimi anni, la sua adozione non ha fatto che accelerare, grazie ai progressi di deep learning e big data. Una ricerca (link esterno a ibm.com) mostra che questo mercato varrà, secondo le previsioni, 24,9 miliardi di dollari entro il 2025.

Prodotti in evidenza

IBM Watson Speech to Text

IBM Watson Text to Speech

Caratteristiche principali di un riconoscimento vocale efficace

Sono disponibili molti dispositivi ed applicazioni di riconoscimento vocale, ma le soluzioni più avanzate utilizzano l'AI e il machine learning. Integrano la grammatica, la sintassi, la struttura e la composizione dei segnali audio e vocali per comprendere ed elaborare il parlato umano. Idealmente, questi dispositivi imparano mentre vengono utilizzati, facendo evolvere le risposte a ogni interazione.

I sistemi migliori consentono alle aziende anche di personalizzare ed adattare la tecnologia ai propri requisiti specifici, dal linguaggio e dalle sfumature del parlato al riconoscimento del marchio. Ad esempio:

Ponderazione del linguaggio: migliora la precisione ponderando parole specifiche utilizzate frequentemente (ad esempio nomi di prodotti o gergo del settore) oltre ai termini già presenti nel vocabolario di base.
Identificazione dei parlanti: genera come output una trascrizione che cita o assegna tag ai contributi di ciascun parlante a una conversazione con più partecipanti.
Addestramento acustico: si occupa della parte acustica del business. Addestra il sistema ad adattarsi ad un ambiente acustico (ad esempio ai rumori ambientali in un call center) e agli stili dei parlanti (come il tono della voce, il volume ed il ritmo).
Filtro delle volgarità: utilizza filtri per identificare alcune parole o frasi e ripulire l'output vocale.

Nel frattempo, il riconoscimento vocale continua a progredire. Le aziende, come IBM, si stanno facendo strada in diverse aree, per migliorare l'interazione tra uomo e macchina.

Algoritmi di riconoscimento vocale

Le variazioni imprevedibili del parlato umano hanno reso impegnativo lo sviluppo. È considerata una delle aree più complesse dell'informatica - coinvolgendo linguistica, matematica e statistica. I riconoscitori vocali sono costituiti da alcuni componenti, come l'input del discorso, l'estrazione delle caratteristiche, i vettori di caratteristiche, un decodificatore e un output di parole. Il decodificatore sfrutta modelli acustici, un dizionario di pronuncia e modelli linguistici per determinare l'output appropriato.

La tecnologia di riconoscimento vocale viene valutata in base al suo tasso di accuratezza, cioè il tasso di parole errate (word error rate, WER) e la velocità. Un certo numero di fattori può influenzare il tasso di parole errate, come la pronuncia, l'accento, l'intonazione, il volume e il rumore di fondo. Raggiungere la parità umana - cioè un tasso di errore pari a quello di due umani che parlano - è stato a lungo l'obiettivo dei sistemi di riconoscimento vocale. Una ricerca di Lippmann (link esterno a ibm.com) (PDF, 352 KB) stima che il tasso di errore sia uguale a circa il 4 percento, ma è stato difficile replicare i risultati indicati in questo documento.

Leggi di più su come IBM ha fatto passi da gigante in questo senso, raggiungendo record di settore nel campo del riconoscimento vocale.

Per convertire il linguaggio in testo e migliorare l'accuratezza delle trascrizioni vengono utilizzati diversi algoritmi e tecniche di calcolo. Di seguito sono riportate brevi spiegazioni di alcuni dei metodi più comunemente utilizzati:

Elaborazione del linguaggio naturale (Natural Language Processing, NLP): anche se NLP non è necessariamente un algoritmo specificamente utilizzato nel riconoscimento vocale, è l'area dell'AI che concentra l'attenzione sull'interazione tra uomo e macchina attraverso il linguaggio. Molti dispositivi mobili integrano il riconoscimento vocale nei propri sistemi per condurre ricerche vocali, ad esempio Siri, o fornire maggiore accessibilità al testo.
Modelli di Markov nascosti (hidden markov model, HMM): i modelli di Markov nascosti si basano sul modello della catena di Markov, secondo il quale la probabilità di un determinato stato dipende dallo stato corrente e non dagli stati precedenti. Mentre un modello della catena di Markov è utile per eventi osservabili, come gli input di testo, i modelli nascosti di Markov ci permettono di incorporare eventi nascosti, come i tag di parti del discorso, in un modello probabilistico. Sono utilizzati come modelli di sequenza nel riconoscimento vocale, assegnando etichette ad ogni unità - cioè parole, sillabe, frasi, ecc. - nella sequenza. Queste etichette creano una mappatura con l'input fornito, consentendole di determinare la sequenza di etichette più appropriata.
N-grammi: questo è il tipo più semplice di modello di linguaggio (language model, LM), che assegna probabilità a frasi o locuzioni. Un N-gramma è una sequenza di N parole. Ad esempio, "ordina la pizza" è un trigramma o 3-gramma e "per favore ordina la pizza" è un 5-gramma. Per migliorare il riconoscimento e l'accuratezza, vengono utilizzate la grammatica e la probabilità di determinate sequenze di parole.
Reti neurali: sfruttate principalmente per gli algoritmi di deep learning, le reti neurali elaborano i dati di addestramento imitando l'interconnettività del cervello umano attraverso livelli di nodi. Ogni nodo è composto da input, punteggi, un limite (o soglia) e un output. Se questo valore di output supera una data soglia, "accende" o attiva il nodo, passando i dati al livello successivo della rete. Le reti neurali imparano questa funzione di mappatura attraverso l'apprendimento supervisionato, regolandosi in base alla funzione di perdita attraverso il processo di discesa del gradiente. Sebbene le reti neurali tendano ad essere più accurate e possano accettare più dati, comportano un costo in termini di efficienza delle prestazioni, perché tendono a essere più lente nell'apprendimento rispetto ai modelli di linguaggio tradizionali.
Diarizzazione del parlante (Speaker Diarization, SD): gli algoritmi di diarizzazione del parlante identificano e segmentano il parlato in base all'identità del parlante. Questo aiuta i programmi a distinguere meglio le persone in una conversazione e viene spesso applicato ai call center per distinguere clienti e agenti di vendita.

Casi di utilizzo del riconoscimento vocale

Un ampio numero di settori sta attualmente utilizzando diverse applicazioni di tecnologia vocale, aiutando aziende e consumatori a risparmiare tempo e addirittura salvare vite. Alcuni esempi includono:

Automotive: i programmi di riconoscimento vocale migliorano la sicurezza del conducente abilitando sistemi di navigazione e funzionalità di ricerca nelle autoradio ad attivazione vocale.

Tecnologia: gli agenti virtuali sono sempre più integrati nella nostra vita quotidiana, in particolare nei nostri dispositivi mobili. Usiamo i comandi vocali per accedervi attraverso i nostri smartphone, come attraverso Google Assistant o Siri di Apple, per attività come la ricerca vocale, o attraverso i nostri altoparlanti, tramite Alexa di Amazon o Cortana di Microsoft, per riprodurre musica. Tali dispositivi continueranno ad integrarsi nei prodotti di uso quotidiano, alimentando il movimento "IoT (Internet of Things)".

Assistenza sanitaria: medici e infermieri utilizzano applicazioni di dettatura per acquisire e registrare le diagnosi dei pazienti e le note di trattamento.

Vendite: la tecnologia di riconoscimento vocale dispone di un paio di applicazioni per le vendite. Può aiutare un call center a trascrivere migliaia di telefonate tra clienti e agenti per identificare i motivi e i problemi comuni delle chiamate. I chatbot AI possono anche parlare con le persone tramite una pagina web, rispondendo a domande comuni e risolvendo richieste di base senza dover aspettare che un agente del contact center sia disponibile. In entrambi i casi, i sistemi di riconoscimento vocale aiutano a ridurre il tempo necessario per la risoluzione dei problemi dei consumatori.

Sicurezza: con l'aumento dell'integrazione della tecnologia nella nostra vita quotidiana, i protocolli di sicurezza rappresentano una priorità crescente. L'autenticazione basata sulla voce aggiunge un valido livello di sicurezza.

Soluzioni correlate

IBM® Watson Speech to Text

Converti il parlato in testo utilizzando il riconoscimento vocale e la trascrizione basati sull'AI.

Esplora IBM Watson Speech to Text

IBM® Watson Text to Speech

Converti il testo in un parlato dal suono naturale in una varietà di lingue e voci.

Esplora IBM Watson Text to Speech

Soluzioni IBM® Cloud Pak

Software cloud ibrido basato sull'AI.

Esplora le soluzioni Cloud Pak

Risorse

Scopri in che modo la tecnologia IBM Watson Speech to Text utilizza la trascrizione e il riconoscimento vocale basati sull'AI

Abilita la trascrizione vocale in più lingue per un'ampia gamma di casi d'utilizzo inclusi, a titolo di esempio, il servizio self-service per i clienti, l'assistenza degli agenti e l'analytics vocale.

L'applicazione per la traduzione raggiunge un'accuratezza del 95%

Scopri in che modo Lingmo migliora il riconoscimento vocale e l'addestramento dei modelli con meno dati.

Gli IBM Cloud Pak, un percorso verso la trasformazione digitale

Scopri come tenere il passo, ripensa a come utilizzare tecnologie quali il cloud, l'AI e l'automazione per accelerare l'innovazione e soddisfa le aspettative in continua evoluzione dei clienti.

Passa alla fase successiva

IBM è stata pioniera nello sviluppo di strumenti e servizi di riconoscimento vocale che consentono alle organizzazioni di automatizzare i loro complessi processi di business, ottenendo al contempo insight essenziali per il business.IBM Watson Speech to Text è una soluzione nativa del cloud che utilizza algoritmi AI di deep learning per applicare conoscenze sulla grammatica, la struttura del linguaggio e la composizione di segnali audio/vocali per creare un riconoscimento vocale personalizzabile per una trascrizione ottimale del testo.

Prova IBM Watson Speech to Text oggi stesso