Cos'è un modello trasformatore?

Un modello trasformatore è un tipo di modello di deep learning introdotto nel 2017. Questi modelli sono diventati rapidamente fondamentali nell'elaborazione del linguaggio naturale (NLP) e sono stati applicati a una vasta gamma di attività nel machine learning e nell'intelligenza artificiale.

Il modello è stato descritto per la prima volta in un documento del 2017 intitolato "Attention is All You Need" di Ashish Vaswani, un team di Google Brain, e un gruppo dell'Università di Toronto. La pubblicazione di questo documento è considerata un punto di svolta nel settore, dato che i trasformatori sono ora ampiamente utilizzati in applicazioni come l'addestramento degli LLM.

Questi modelli sono in grado di tradurre testo e voce quasi in tempo reale. Ad esempio, ci sono app che ora consentono ai turisti di comunicare con le persone del posto nella loro lingua madre. Aiutano i ricercatori a comprendere meglio il DNA e ad accelerare la progettazione dei farmaci. Possono aiutare a rilevare le anomalie e a prevenire le frodi nei settori della finanza e della sicurezza. I trasformatori visivi sono simili a quelli utilizzati per le attività di computer vision.

Il popolare strumento di generazione di testo ChatGPT di OpenAI utilizza architetture trasformative per la previsione, il riepilogo, la risposta alle domande e molto altro, perché consentono al modello di concentrarsi sui segmenti più rilevanti del testo di input. Il "GPT" visualizzato nelle varie versioni dello strumento (ad es. GPT-2, GPT-3) è l'acronimo di "trasformatore generativo pre-addestrato". Gli strumenti di AI generativa basati su testo come ChatGPT beneficiano dei modelli di trasformazione perché possono prevedere più facilmente la parola successiva in una sequenza di testo, sulla base di set di dati ampi e complessi.

Il modello BERT, o Bidirectional Encoder Representations from Transformers, si basa sull'architettura trasformativa. A partire dal 2019, BERT è stato utilizzato per quasi tutti i risultati di ricerca di Google in lingua inglese ed è stato implementato in oltre 70 altre lingue.¹

Il data store per l'AI

Scopri la potenza dell'integrazione di una strategia data lakehouse nella tua architettura dei dati, compresi i miglioramenti per scalare l'AI e le opportunità di ottimizzazione dei costi.

Contenuti correlati

Registrati per l'ebook sull'AI generativa

In che cosa differiscono i modelli trasformatori

L’innovazione chiave del modello trasformatore consiste nel non dover fare affidamento su reti neurali ricorrenti (RNN) o reti neurali convoluzionali (CNN), approcci alle reti neurali che presentano notevoli inconvenienti. I trasformatori elaborano le sequenze di input in parallelo, rendendole estremamente efficienti per l'addestramento e l'inferenza, perché non è possibile velocizzare le cose semplicemente aggiungendo più GPU. I modelli trasformatori richiedono meno tempo di addestramento rispetto alle precedenti architetture di reti neurali ricorrenti come la memoria a lungo termine (LSTM).

Le RNN e la LSTM risalgono rispettivamente agli anni '20 e agli anni '90. Queste tecniche calcolano ogni componente di un input in sequenza (ad es. parola per parola), quindi il calcolo può richiedere molto tempo. Inoltre, entrambi gli approcci si scontrano con le limitazioni nel mantenere il contesto in presenza di una lunga "distanza" tra le informazioni in un input.

Due grandi innovazioni

I modelli trasformatori introducono due innovazioni principali. Consideriamo queste due innovazioni nel contesto della previsione del testo.

Codifica posizionale: invece di guardare ogni parola nell'ordine in cui appare in una frase, le viene assegnato un numero univoco. In questo modo abbiamo le informazioni sulla posizione di ciascun token (parti dell'input come parole o parti di una sottoparola in NLP) nella sequenza, consentendo al modello di considerare le informazioni sequenziali della sequenza.
Auto-attenzione: l'attenzione è un meccanismo che calcola i pesi di ogni parola in una frase in relazione a ogni altra parola della frase stessa, quindi il modello può prevedere le parole che potrebbero essere utilizzate in sequenza. Questa comprensione viene appresa nel tempo, quando il modello viene addestrato su una grande quantità di dati. Il meccanismo di auto-attenzione consente a ciascuna parola di prestare attenzione a tutte le altre parole nella sequenza in parallelo, soppesandone l'importanza per il token corrente. In questo modo, si può dire che i modelli di machine learning possono "imparare" le regole della grammatica, in base alle probabilità statistiche di come le parole sono tipicamente utilizzate nel linguaggio.

Come funzionano i modelli trasformatori?

I modelli trasformatori funzionano elaborando i dati di input, che possono essere sequenze di token o altri dati strutturati, attraverso una serie di livelli che contengono meccanismi di auto-attenzione e reti neurali feedforward. L’idea alla base del funzionamento dei modelli trasformatori può essere suddivisa in diversi passaggi chiave.

Immaginiamo che tu debba tradurre una frase dall'inglese in francese. Questi sono i passaggi per eseguire questa attività con un modello trasformatore.

Incorporamento dell'input: la frase di input viene trasformata per la prima volta in rappresentazioni numeriche chiamate incorporamenti, che raccolgono il significato semantico dei token nella sequenza di input. Per le sequenze di parole, questi incorporamenti possono essere appresi durante l'addestramento o ottenuti da incorporamenti di parole pre-addestrati.
Codifica posizionale: la codifica posizionale viene in genere introdotta come un insieme di valori o vettori aggiuntivi che vengono integrati negli incorporamenti dei token prima di inserirli nel modello trasformatore. Queste codifiche posizionali presentano modelli specifici che codificano le informazioni sulla posizione.
Attenzione multitesta: l'auto-attenzione opera in più "teste di attenzione" per cogliere diversi tipi di relazioni tra i token. Le funzioni Softmax, un tipo di funzione di attivazione, vengono utilizzate per calcolare i pesi di attenzione nel meccanismo di auto-attenzione.
Normalizzazione dei livelli e connessioni residue: il modello utilizza la normalizzazione dei livelli e le connessioni residue per stabilizzare e velocizzare l'addestramento.
Reti neurali feedforward: l'output del livello di auto-attenzione viene passato attraverso i livelli feedforward. Queste reti applicano trasformazioni non lineari alle rappresentazioni dei token, consentendo al modello di acquisire pattern e relazioni complessi nei dati.
Layer impilati: in genere, i trasformatori sono costituiti da più layer impilati uno sopra l'altro. Ciascun layer elabora l'output dello strato precedente, perfezionando gradualmente le rappresentazioni. L'impilamento di più layer consente al modello di acquisire caratteristiche gerarchiche ed astratte nei dati.
Livello di output: in attività da sequenza a sequenza come la traduzione automatica neurale, è possibile aggiungere un modulo decodificatore separato sopra l'encoder per generare la sequenza di output.
Addestramento: i modelli trasformatori vengono addestrati utilizzando l'apprendimento supervisionato, in cui imparano a minimizzare una funzione di perdita che quantifica la differenza tra le previsioni del modello e la verità di base per una data attività. In genere, l'addestramento prevede tecniche di ottimizzazione come Adam o la discesa del gradiente stocastica (SGD).
Inferenza: dopo la formazione, il modello può essere utilizzato per l'inferenza sui nuovi dati. Durante l'inferenza, la sequenza di input viene passata attraverso il modello pre-addestrato e il modello genera previsioni o rappresentazioni per l'attività specificata.

Soluzioni correlate

Dati e AI

Soluzioni di data warehouse

Scala workload di analytics e AI sempre attivi e ad alte prestazioni sui dati governati in tutta la tua organizzazione.

Scopri di più sulle soluzioni di data warehouse

Dati e AI

IBM WATSONX.DATA

IBM watsonx.data è uno storage dei dati fit-for-purpose basato su un'architettura open lakehouse e supportato da query, governance e formati open data per accedere e condividere i dati.

Maggiori informazioni su IBM watsonx.data

Risorse correlate

IBM aiuta le aziende a scalare i carichi di lavoro AI

Scopri IBM watsonx.data, un archivio dati che aiuta le aziende a unificare e controllare facilmente i dati strutturati e non strutturati.

Il potenziale dirompente delle architetture open data lakehouse e IBM watsonx.data

Esplora l'architettura open data lakehouse e scopri come combina la flessibilità e i vantaggi in termini di costi dei data lake con le prestazioni dei data warehouse.

IBM WATSONX.DATA: Un archivio dati aperto, ibrido e controllato

Scopri come IBM watsonx.data aiuta le aziende ad affrontare le sfide del complesso landscape dei dati di oggi e ad adattare l'AI per soddisfare le loro esigenze.

Presto: dai un senso a tutti i tuoi dati, di qualsiasi dimensione, ovunque

Scopri come Presto, un motore di SQL query open source veloce e flessibile, può aiutarti a fornire gli insight di cui le aziende hanno bisogno.

Fasi successive

Scala i workload AI per tutti i tuoi dati, ovunque, con IBM watsonx.data, uno storage dei dati adatto allo scopo costruito su un'architettura open data lakehouse.

Esplora watsonx.data

Prenota una demo live

Note a piè di pagina

{¹ Google’s BERT Rolls Out Worldwide, Search Engine Journal (link esterno a IBM.com), 9 dicembre 2019