Home
topics
natural language processing
Ultimo aggiornamento: 11 agosto 2024
Autori: Cole Stryker, Jim Holdsworth
L'elaborazione del linguaggio naturale (NLP) è un sottocampo dell'informatica e dell'intelligenza artificiale (AI) che utilizza l'apprendimento automatico per consentire ai computer di comprendere e comunicare con il linguaggio umano.
L'NLP consente ai computer e ai dispositivi digitali di riconoscere, comprendere e generare testo e parlato combinando la linguistica computazionale (la modellazione basata su regole del linguaggio umano) insieme alla modellazione statistica, all'apprendimento automatico e al deep learning.
La ricerca sull'NLP ha contribuito a rendere possibile l'era dell'AI generativa, dalle capacità di comunicazione dei modelli linguistici di grandi dimensioni (LLM) alla capacità dei modelli di generazione di immagini di comprendere le richieste. L'NLP fa già parte della vita quotidiana di molti, essendo impiegato per i motori di ricerca, i chatbot per il servizio clienti con comandi vocali, i sistemi GPS a comando vocale e gli assistenti digitali per rispondere alle domande su smartphone come Alexa di Amazon, Siri di Apple e Cortana di Microsoft.
L'NLP svolge anche un ruolo crescente nelle soluzioni aziendali che aiutano a semplificare e automatizzare le operazioni aziendali, aumentare la produttività dei dipendenti e semplificare i processi aziendali.
Utilizza questo framework di selezione del modello per scegliere il modello più appropriato bilanciando i requisiti di prestazioni con costi, rischi ed esigenze di implementazione.
L'NLP rende più facile per gli esseri umani comunicare e collaborare con le macchine, consentendo loro di farlo nel linguaggio umano naturale che usano ogni giorno. Ciò offre vantaggi in molti settori e applicazioni.
L'NLP è particolarmente utile per automatizzare completamente o parzialmente attività come l'assistenza clienti, l'immissione dei dati e la gestione dei documenti. Ad esempio, i chatbot basati su NLP possono gestire le domande di routine dei clienti, lasciando disponibili gli agenti umani per problemi più complessi. Nell'elaborazione dei documenti, gli strumenti di NLP possono classificare automaticamente, estrarre informazioni chiave e riepilogare i contenuti, riducendo i tempi e gli errori associati alla gestione manuale dei dati. L'NLP facilita la traduzione linguistica, convertendo il testo da una lingua all'altra preservandone significato, contesto e sfumature.
L'NLP migliora l'analisi dei dati consentendo l'estrazione di informazioni da dati di testo non strutturati, come recensioni dei clienti, post sui social media e articoli di notizie. Utilizzando tecniche di text mining, l'NLP può identificare modelli, tendenze e sentiment che non sono immediatamente evidenti in set di dati di grandi dimensioni. L'analisi del sentiment consente l'estrazione di qualità soggettive (atteggiamenti, emozioni, sarcasmo, confusione o sospetto) dal testo. Viene spesso utilizzata per indirizzare le comunicazioni al sistema o alla persona che ha maggiori probabilità di dare la risposta successiva.
Ciò consente alle aziende di comprendere meglio le preferenze dei clienti, le condizioni di mercato e l'opinione pubblica. Gli strumenti di NLP possono anche eseguire la categorizzazione e il riassunto di grandi quantità di testo, rendendo più facile per gli analisti identificare le informazioni chiave e prendere decisioni basate sui dati in modo più efficiente.
L'NLP va a favore della ricerca consentendo ai sistemi di comprendere l'intento alla base delle domande degli utenti, fornendo risultati più accurati e contestualmente pertinenti. Invece di fare affidamento esclusivamente sulla corrispondenza delle parole chiave, i motori di ricerca basati su NLP analizzano il significato di parole e frasi, rendendo più facile trovare informazioni anche quando le query sono vaghe o complesse. Ciò migliora l'esperienza dell'utente nelle ricerche sul web, nel recupero di documenti o nei sistemi di dati aziendali.
L'NLP consente ai modelli linguistici avanzati di creare testi simili a quelli umani per vari scopi. I modelli pre-addestrati, come GPT-4, possono generare articoli, report, testi di marketing, descrizioni di prodotti e persino scrittura creativa in base alle richieste fornite dagli utenti. Gli strumenti basati sull'NLP possono anche aiutare ad automatizzare attività come la creazione di e-mail, la scrittura di post sui social media o la documentazione legale. Comprendendo il contesto, il tono e lo stile, l'NLP si assicura che il contenuto generato sia coerente, pertinente e allineato con il messaggio previsto, risparmiando tempo e fatica nella creazione dei contenuti e mantenendone la qualità.
L'NLP combina la potenza della linguistica computazionale con algoritmi di apprendimento automatico e deep learning. La linguistica computazionale utilizza la data science per analizzare il linguaggio e il parlato. Comprende due tipi principali di analisi: l'analisi sintattica e l'analisi semantica. L'analisi sintattica determina il significato di una parola o di una frase analizzando la sintassi delle parole e applicando regole grammaticali programmate in precedenza. L'analisi semantica utilizza l'output sintattico per comprendere il significato delle parole e interpretarle all'interno della struttura della frase.
Il parsing delle parole può assumere due forme distinte. Il parsing delle dipendenze esamina le relazioni tra le parole, ad esempio l'identificazione di nomi e verbi, mentre il parsing costitutivo crea un parse tree (o syntax tree): una rappresentazione radicata e ordinata della struttura sintattica della frase o della stringa di parole. I parse tree risultanti sono alla base delle funzioni dei Language Translator e del riconoscimento vocale. Idealmente, questa analisi rende l'output, sia testuale che vocale, comprensibile sia ai modelli di NLP che alle persone.
L'apprendimento autosupervisionato (SSL) in particolare è utile per supportare l'NLP perché richiede grandi quantità di dati etichettati per addestrare i modelli AI. Poiché questi set di dati etichettati richiedono una lunga annotazione (un processo che comporta l'etichettatura manuale da parte degli esseri umani), raccogliere una quantità sufficiente di dati può essere estremamente difficile. Gli approcci autosupervisionati possono essere più efficienti in termini di tempo e costi, poiché sostituiscono in parte o completamente i dati di addestramento etichettati manualmente.
Tre diversi approcci all'NLP includono:
Le prime applicazioni dell'NLP erano semplici decision trees, che richiedevano regole programmate in precedenza. Sono in grado di fornire risposte solo in seguito a richieste specifiche, come la versione originale di Moviefone, che aveva funzionalità rudimentali di generazione del linguaggio naturale (NLG). Poiché non esiste alcuna funzionalità di apprendimento automatico o AI nell'NLP basato su regole, questa funzione è altamente limitata e non scalabile.
Successivamente è stato sviluppato l'NLP statistico, che estrae, classifica ed etichetta automaticamente elementi di testo e dati vocali, e quindi assegna una probabilità statistica a ogni possibile significato di tali elementi. Questo si basa sull'apprendimento automatico, consentendo una sofisticata suddivisione della linguistica come l'etichettatura delle parti del discorso.
L'NLP statistico ha introdotto la tecnica essenziale di mappare gli elementi del linguaggio, come parole e regole grammaticali, su una rappresentazione vettoriale in modo che il linguaggio possa essere modellato utilizzando metodi matematici (statistici), inclusi modelli di regressione o di Markov. Questo ha influenzato i primi sviluppi dell'NLP, come i correttori ortografici e l'invio di testi T9 (testo su 9 tasti, da utilizzare sui telefoni touch-tone).
Recentemente, i modelli di deep learning sono diventati la modalità dominante dell'NLP, utilizzando enormi volumi di dati non elaborati e non strutturati, sia testuali che vocali, per diventare sempre più accurati. Il deep learning può essere visto come un'ulteriore evoluzione dell'NLP statistico, con la differenza che utilizza modelli di reti neurali. Esistono diverse sottocategorie di modelli:
Modelli sequence-to-sequence (seq2seq): basati su reti neurali ricorrenti (RNN), sono stati utilizzati principalmente per la traduzione automatica convertendo una frase da un dominio (come la lingua tedesca) nella frase di un altro dominio (come l'inglese).
Modelli trasformatori: utilizzano la tokenizzazione del linguaggio (la posizione di ciascun token, parola o sottoparola) e l'auto-attenzione (acquisendo dipendenze e relazioni) per calcolare la relazione tra le diverse parti del linguaggio. I modelli trasformatori possono essere addestrati in modo efficiente utilizzando l'apprendimento autosupervisionato su enormi database di testo. Una pietra miliare nei modelli trasformatori sono state le rappresentazioni degli encoder bidirezionali dai trasformatori (BERT) di Google, che sono diventate e rimangono la base del funzionamento del famoso motore di ricerca.
Modelli autoregressivi: questo tipo di modello trasformatore viene addestrato specificamente per prevedere la parola successiva in una sequenza, il che rappresenta un enorme passo avanti nella capacità di generare testo. Esempi di LLM autoregressivi includono GPT, Llama, Claude e Mistral open source.
Foundation model: i modelli di base precostituiti e curati possono accelerare il lancio di uno sviluppo di NLP e aumentare la fiducia nel suo funzionamento. Ad esempio, i foundation model IBM® Granite sono ampiamente applicabili in tutti i settori. Supportano le attività di NLP, tra cui la generazione di contenuti e l'estrazione di insight. Inoltre, facilitano la Retrieval Augmented Generation, un framework per migliorare la qualità della risposta collegando il modello a fonti di conoscenza esterne. I modelli eseguono anche il named entity recognition, che comporta l'identificazione e l'estrazione di informazioni chiave in un testo.
Solitamente, diverse attività di NLP aiutano a elaborare dati di testo e vocali umani in modo da aiutare il computer a dare un senso a ciò che viene inserito. Alcune di queste attività includono:
Risoluzione delle coreferenze
Named Entity Recognition
Assegnazione di tag alle parti del discorso
Disambiguazione del senso delle parole
Questa attività consiste nell'identificare se e quando due parole si riferiscono alla stessa entità. L'esempio più comune è quello di determinare la persona o l'oggetto a cui si riferisce un determinato pronome (ad esempio "lei" = "Maria"), ma può anche comportare l'identificazione di una metafora o di un modo di dire nel testo (ad es. un caso in cui un "orso" non è un animale, ma una grande persona pelosa).
Il NER identifica parole o frasi come entità utili. Il NER identifica "Londra" come una località o "Maria" come il nome di una persona.
Anche nota come assegnazione di tag grammaticali, si tratta del processo di determinazione della parte del discorso di una parola o di un pezzo di testo, in base al suo uso e al contesto. Per esempio, l'etichettatura Part-of-Speech identifica "accusa" come un verbo nella frase "Lo accusa del crimine" e come un sostantivo in "È un'accusa infondata".
Si tratta della selezione di un significato di una parola con significati multipli, attraverso un processo di analisi semantica per esaminare la parola nel contesto. Ad esempio, la disambiguazione del senso della parola aiuta a distinguere il significato del verbo "sbarrare" in "sbarrare gli occhi" (aprire) rispetto a "sbarrare la porta" (chiudere). Elaborare la frase "Ha sbarrato gli occhi quando hanno sbarrato la porta" richiede un sofisticato sistema di NLP.
L'NLP funziona combinando varie tecniche computazionali per analizzare, comprendere e generare il linguaggio umano in un modo che le macchine possono elaborare. Di seguito è riportata una panoramica di una tipica pipeline NLP e dei relativi passaggi:
La preelaborazione del testo NLP prepara il testo non elaborato per l'analisi, trasformandolo in un formato che le macchine possono comprendere più facilmente. Tutto parte con la tokenizzazione, che consiste nel suddividere il testo in unità più piccole, come parole, frasi o espressioni. Ciò aiuta a scomporre un testo complesso in parti gestibili. Successivamente, viene applicata la minuscola per standardizzare il testo convertendo tutti i caratteri in minuscolo, assicurando che parole come "Jeep" e "jeep " siano trattate allo stesso modo. La rimozione delle stop word è un altro passaggio comune, in cui le parole usate di frequente come "è" o "il" vengono escluse perché non aggiungono un significato particolare al testo. Lo stemming o lemmatizzazione riduce le parole alla loro radice (ad esempio, "eseguendo" diventa "eseguire"), facilitando l'analisi del linguaggio raggruppando diverse forme della stessa parola. Inoltre, la pulizia del testo rimuove elementi indesiderati come punteggiatura, caratteri speciali e numeri che potrebbero complicare l'analisi.
Dopo la pre-elaborazione, il testo è pulito, standardizzato e pronto per essere interpretato in modo efficace dai modelli di apprendimento automatico.
L'estrazione delle caratteristiche è il processo di conversione del testo non elaborato in rappresentazioni numeriche che le macchine possono analizzare e interpretare. Ciò comporta la trasformazione del testo in dati strutturati utilizzando tecniche di NLP come Bag of Words e TF-IDF, che quantificano la presenza e l'importanza delle parole in un documento. I metodi più avanzati includono incorporamenti di parole come Word2Vec o GLove, che rappresentano le parole come vettori densi in uno spazio continuo, catturando le relazioni semantiche tra le parole. Gli incorporamenti contestuali migliorano ulteriormente la situazione considerando il contesto in cui appaiono le parole e consentendo rappresentazioni più complesse e sfumate.
L'analisi del testo implica l'interpretazione e l'estrazione di informazioni significative dai dati di testo attraverso varie tecniche computazionali. Questo processo include attività come l'etichettatura Part-of-Speech (POS), che identifica i ruoli grammaticali delle parole e il Named Entity Recognition (NER), che rileva entità specifiche come nomi, luoghi e date. Il parsing delle dipendenze analizza le relazioni grammaticali tra le parole per comprendere la struttura delle frasi, mentre l'analisi del sentiment determina il tono emotivo del testo, valutando se è positivo, negativo o neutro. La modellazione degli argomenti identifica i temi o gli argomenti sottostanti all'interno di un testo o in un corpus di documenti. Il Natural language understanding (NLU) è un sottoinsieme dell'NLP che si concentra sull'analisi del significato che celano le frasi. L'NLU consente al software di trovare significati simili in frasi diverse o di elaborare parole che hanno significati diversi. Attraverso queste tecniche, l'analisi del testo NLP trasforma il testo non strutturato in insight.
I dati elaborati vengono poi utilizzati per addestrare i modelli di apprendimento automatico, che imparano i modelli e le relazioni all'interno dei dati. Durante l'addestramento, il modello regola i parametri per ridurre al minimo gli errori e migliorare le prestazioni. Una volta addestrato, il modello può essere utilizzato per fare previsioni o generare output su nuovi dati non visibili. L'efficacia della modellazione NLP viene continuamente perfezionata attraverso la valutazione, la convalida e la messa a punto per migliorare l'accuratezza e la pertinenza nelle applicazioni del mondo reale.
Diversi ambienti software risultano utili in tutti i processi menzionati. Ad esempio, il Natural Language Toolkit (NLTK) è una suite di librerie e programmi per l'inglese scritti nel linguaggio di programmazione Python. Supporta le funzionalità di classificazione del testo, tokenizzazione, stemming, tagging, parsing e ragionamento semantico. TensorFlow è una libreria software gratuita e open source per l'apprendimento automatico e l'AI che può essere utilizzata per addestrare modelli per applicazioni NLP. Per chi è interessato a familiarizzare con tali strumenti, sono disponibili numerosi tutorial e certificazioni.
Anche i modelli di NLP più avanzati non sono perfetti, proprio come il linguaggio umano è soggetto a errori. Come ogni tecnologia AI, anche l'NLP presenta delle potenziali insidie. Il linguaggio umano è pieno di ambiguità che rendono difficile per i programmatori sviluppare software in grado di determinare con precisione il significato previsto del testo o dei dati vocali. Possono volerci anni prima che gli esseri umani imparino il linguaggio, e molti non smettono mai di imparare. Ma poi i programmatori devono insegnare alle applicazioni basate sul linguaggio naturale a riconoscere e comprendere le irregolarità, affinché le applicazioni possano essere precise e utili. I rischi associati potrebbero includere:
Come accade con qualsiasi funzione di AI, i dati distorti utilizzati durante l'addestramento influenzano le risposte. Più diversi sono gli utenti di una funzione di NLP, più questo rischio diventa significativo, ad esempio nei servizi governativi, nell'assistenza sanitaria e nelle interazioni con le risorse umane. I set di dati di addestramento ottenuti dal web, ad esempio, sono soggetti a distorsioni.
Come per la programmazione, esiste il cosiddetto rischio "garbage in, garbage out" (GIGO). Il riconoscimento vocale, chiamato anche Speech to Text, è il compito di convertire in modo affidabile i dati vocali in dati di testo. Tuttavia, le soluzioni di NLP possono creare confusione se l'input vocale è in un dialetto poco conosciuto, scandito male, pieno di espressioni gergali, omonimi, grammatica errata, frasi idiomatiche, spezzoni, pronunce errate, contrazioni o registrato con troppo rumore di fondo.
Nuove parole vengono continuamente inventate o importate. Le convenzioni grammaticali possono evolversi o essere volontariamente infrante. In questi casi, l'NLP può abbozzare un'ipotesi o ammettere di non essere sicura e, in entrambi i casi, ciò crea una complicazione.
Quando le persone parlano, il loro linguaggio verbale o anche il linguaggio del corpo possono dare un significato completamente diverso rispetto alle sole parole. L'esagerazione per l'effetto, l'enfasi sulle parole per importanza o il sarcasmo possono essere confusi dall'NLP, rendendo l'analisi semantica più difficile e meno affidabile.
Le applicazioni dell'NLP si trovano ora in quasi tutti i settori.
Nelle transazioni finanziarie, i nanosecondi possono fare la differenza tra il successo e il fallimento quando si accede ai dati o si effettuano transazioni o accordi. L'NLP può accelerare l'estrazione di informazioni da bilanci, relazioni annuali e normative, comunicati stampa o persino social media.
Nuove conoscenze e scoperte mediche possono arrivare tanto velocemente da non consentire agli operatori sanitari di restare al passo. Gli strumenti basati su NLP e AI possono aiutare a velocizzare l'analisi delle cartelle cliniche e dei documenti di ricerca medica, rendendo possibili decisioni mediche più informate o assistendo nel rilevamento o addirittura nella prevenzione delle condizioni mediche.
L'NLP può analizzare le richieste di rimborso per cercare modelli in grado di identificare le aree critiche e trovare inefficienze nell'elaborazione delle richieste, il che porta a una maggiore ottimizzazione dell'elaborazione e dell'impegno dei dipendenti.
Quasi tutti i casi legali potrebbero richiedere la revisione di un elevato numero di documenti, informazioni di base e precedenti legali. L'NLP può aiutare ad automatizzare la scoperta legale, aiutare nell'organizzazione delle informazioni, accelerare la revisione e assicurare che tutti i dettagli pertinenti vengano acquisiti per essere presi in considerazione.
Accelera il valore aziendale dell'intelligenza artificiale con un portfolio potente e flessibile di librerie, servizi e applicazioni.
Integra il potente linguaggio naturale AI nelle applicazioni commerciali con una libreria containerizzata progettata per offrire maggiore flessibilità ai partner IBM.
Granite è la serie di punta di IBM di foundation model LLM basati su un'architettura trasformativa solo decoder. I modelli linguistici Granite sono addestrati su dati aziendali affidabili che spaziano da Internet al mondo accademico, ai codici, ai settori legale e finanziario.
Impara i concetti fondamentali dell'AI e dell'AI generativa, tra cui il prompt engineering, i modelli linguistici di grandi dimensioni e i migliori progetti open source.
Scopri come l'elaborazione del linguaggio naturale può aiutarti a conversare in modo più naturale con i computer.
Ti presentiamo Scout Advisor, un innovativo strumento di NLP sviluppato sulla piattaforma IBM® watsonx appositamente per il Siviglia.
Questo articolo spiega come IBM Watson può aiutarti a utilizzare i servizi NLP per sviluppare applicazioni sempre più intelligenti, con particolare attenzione al natural language understanding.