Il riconoscimento vocale, noto anche come riconoscimento vocale automatico (automatic speech recognition, ASR), riconoscimento vocale del computer o speech-to-text, è una funzione che consente a un programma di convertire il parlato umano in un formato scritto. Sebbene comunemente confuso con il riconoscimento della voce, il riconoscimento vocale si concentra sulla conversione del parlato da un formato verbale ad un formato scritto, mentre il riconoscimento della voce cerca solo di identificare la voce di un singolo utente.
IBM ha avuto un ruolo di primo piano nel riconoscimento vocale fin dal suo inizio, con il rilascio di "Shoebox" nel 1962. Questa macchina aveva la capacità di riconoscere 16 parole diverse, facendo progredire il lavoro iniziale dei Bell Labs degli anni '50. Tuttavia, IBM non si è fermata lì, ma ha continuato a innovare nel corso degli anni, lanciando l'applicazione VoiceType Simply Speaking nel 1996. Questo software di riconoscimento vocale aveva un vocabolario di 42.000 parole, supportava l'inglese e lo spagnolo, e includeva un dizionario ortografico di 100.000 parole. Mentre la tecnologia vocale aveva un vocabolario limitato nei primi tempi, oggi è utilizzata in un ampio numero di settori, quali quelli di automotive, tecnologia e assistenza sanitaria. Negli ultimi anni, la sua adozione non ha fatto che accelerare, grazie ai progressi di deep learning e big data. Una ricerca (link esterno a ibm.com) mostra che questo mercato varrà, secondo le previsioni, 24,9 miliardi di dollari entro il 2025.
IBM Watson Speech to Text
IBM Watson Text to Speech
Sono disponibili molti dispositivi ed applicazioni di riconoscimento vocale, ma le soluzioni più avanzate utilizzano l'AI e il machine learning. Integrano la grammatica, la sintassi, la struttura e la composizione dei segnali audio e vocali per comprendere ed elaborare il parlato umano. Idealmente, questi dispositivi imparano mentre vengono utilizzati, facendo evolvere le risposte a ogni interazione.
I sistemi migliori consentono alle aziende anche di personalizzare ed adattare la tecnologia ai propri requisiti specifici, dal linguaggio e dalle sfumature del parlato al riconoscimento del marchio. Ad esempio:
Nel frattempo, il riconoscimento vocale continua a progredire. Le aziende, come IBM, si stanno facendo strada in diverse aree, per migliorare l'interazione tra uomo e macchina.
Le variazioni imprevedibili del parlato umano hanno reso impegnativo lo sviluppo. È considerata una delle aree più complesse dell'informatica - coinvolgendo linguistica, matematica e statistica. I riconoscitori vocali sono costituiti da alcuni componenti, come l'input del discorso, l'estrazione delle caratteristiche, i vettori di caratteristiche, un decodificatore e un output di parole. Il decodificatore sfrutta modelli acustici, un dizionario di pronuncia e modelli linguistici per determinare l'output appropriato.
La tecnologia di riconoscimento vocale viene valutata in base al suo tasso di accuratezza, cioè il tasso di parole errate (word error rate, WER) e la velocità. Un certo numero di fattori può influenzare il tasso di parole errate, come la pronuncia, l'accento, l'intonazione, il volume e il rumore di fondo. Raggiungere la parità umana - cioè un tasso di errore pari a quello di due umani che parlano - è stato a lungo l'obiettivo dei sistemi di riconoscimento vocale. Una ricerca di Lippmann (link esterno a ibm.com) (PDF, 352 KB) stima che il tasso di errore sia uguale a circa il 4 percento, ma è stato difficile replicare i risultati indicati in questo documento.
Leggi di più su come IBM ha fatto passi da gigante in questo senso, raggiungendo record di settore nel campo del riconoscimento vocale.
Per convertire il linguaggio in testo e migliorare l'accuratezza delle trascrizioni vengono utilizzati diversi algoritmi e tecniche di calcolo. Di seguito sono riportate brevi spiegazioni di alcuni dei metodi più comunemente utilizzati:
Un ampio numero di settori sta attualmente utilizzando diverse applicazioni di tecnologia vocale, aiutando aziende e consumatori a risparmiare tempo e addirittura salvare vite. Alcuni esempi includono:
Automotive: i programmi di riconoscimento vocale migliorano la sicurezza del conducente abilitando sistemi di navigazione e funzionalità di ricerca nelle autoradio ad attivazione vocale.
Tecnologia: gli agenti virtuali sono sempre più integrati nella nostra vita quotidiana, in particolare nei nostri dispositivi mobili. Usiamo i comandi vocali per accedervi attraverso i nostri smartphone, come attraverso Google Assistant o Siri di Apple, per attività come la ricerca vocale, o attraverso i nostri altoparlanti, tramite Alexa di Amazon o Cortana di Microsoft, per riprodurre musica. Tali dispositivi continueranno ad integrarsi nei prodotti di uso quotidiano, alimentando il movimento "IoT (Internet of Things)".
Assistenza sanitaria: medici e infermieri utilizzano applicazioni di dettatura per acquisire e registrare le diagnosi dei pazienti e le note di trattamento.
Vendite: la tecnologia di riconoscimento vocale dispone di un paio di applicazioni per le vendite. Può aiutare un call center a trascrivere migliaia di telefonate tra clienti e agenti per identificare i motivi e i problemi comuni delle chiamate. I chatbot AI possono anche parlare con le persone tramite una pagina web, rispondendo a domande comuni e risolvendo richieste di base senza dover aspettare che un agente del contact center sia disponibile. In entrambi i casi, i sistemi di riconoscimento vocale aiutano a ridurre il tempo necessario per la risoluzione dei problemi dei consumatori.
Sicurezza: con l'aumento dell'integrazione della tecnologia nella nostra vita quotidiana, i protocolli di sicurezza rappresentano una priorità crescente. L'autenticazione basata sulla voce aggiunge un valido livello di sicurezza.
Converti il parlato in testo utilizzando il riconoscimento vocale e la trascrizione basati sull'AI.
Converti il testo in un parlato dal suono naturale in una varietà di lingue e voci.
Software cloud ibrido basato sull'AI.
Abilita la trascrizione vocale in più lingue per un'ampia gamma di casi d'utilizzo inclusi, a titolo di esempio, il servizio self-service per i clienti, l'assistenza degli agenti e l'analytics vocale.
Scopri in che modo Lingmo migliora il riconoscimento vocale e l'addestramento dei modelli con meno dati.
Scopri come tenere il passo, ripensa a come utilizzare tecnologie quali il cloud, l'AI e l'automazione per accelerare l'innovazione e soddisfa le aspettative in continua evoluzione dei clienti.