I primi tipi di meccanismi di attenzione eseguivano tutti ciò che ora è classificato come attenzione incrociata. Nell'attenzione incrociata, le query e le chiavi provengono da fonti di dati diverse. Ad esempio, nelle attività di traduzione automatica le chiavi provengono da un corpus di testo in una lingua, mentre le query da un'altra lingua; nelle attività di riconoscimento vocale, le query sono dati audio e le chiavi sono dati di testo per trascrivere l'audio.
Nell'auto-attenzione le query, le chiavi e i valori sono tutti attinti dalla stessa fonte. Mentre sia i meccanismi di attenzione di Bahdanau che quelli di Luong erano esplicitamente progettati per la traduzione automatica, Cheng at al propongono l'auto-attenzione, che chiamano "intra-attenzione," come metodo per migliorare la lettura automatica in generale. Il loro meccanismo di attenzione, descritto in un articolo del 2016, esplora non il modo in cui gli elementi input contribuiscono a una sequenza complessiva, ma il modo in cui i diversi token si relazionano tra loro.
Consideriamo un modello linguistico che interpreta il testo
"Venerdì, il giudice ha emesso una sentenza".
- La parola che precede the
suggerisce che judge
fa da sostantivo, nel senso di persona che presiede un processo giuridico, piuttosto che un verbo che significa valutare o farsi un'opinione.
- Quel contesto per la parola judge
suggerisce che sentence
probabilmente si riferisce a una sanzione legale, piuttosto che a un pensiero.
- La parola issued
rafforza la teoria che "sentenza" si riferisca al concetto giuridico.
- Pertanto, quando si interpreta la parola sentence
, il modello dovrebbe prestare molta attenzione a judge
eissued
. Dovrebbe anche prestare attenzione alla parola the
. Può più o meno ignorare le altre parole. Un meccanismo di auto-attenzione ben addestrato calcolerebbe i pesi di attenzione di conseguenza.
L'articolo di Cheng et alsi concentrava esclusivamente sulla capacità, da parte dell'auto-attenzione, di leggere e comprendere il testo, ma presto ne conseguì che anche la modellazione delle relazioni intrasequenziali poteva essere un potente strumento per scrivere del testo. L'ulteriore sviluppo dell'auto-attenzione, insieme ai modelli trasformativi che ha supportato, ha portato direttamente all'avvento della moderna AI generativa e degli LLM autoregressivi in grado di generare testo originale.