Les méthodes d'auto-prévision entraînent un modèle pour prédire une partie d'un échantillon de données individuel, compte tenu des informations sur ses autres parties. On peut aussi parfois parler d'apprentissage auto-supervisé auto-associatif. Les modèles entraînés avec ces méthodes sont généralement des modèles génératifs (plutôt que discriminatifs).
De l'avis de Yann LeCun, les méthodes auto-supervisées sont une pratique structurée qui a pour finalité de « combler les trous ». Il va même plus loin et décrit ce processus d'apprentissage basé sur des représentations significatives tirées de la structure sous-jacente de données non étiquetées en termes simples : « c'est un peu comme si on cachait une partie d'un élément et qu'on vous demandait de la prédire ». 4 Par exemple :
- Prédire toute partie d'une entrée à partir d'une autre partie
- Prédire le futur à partir du passé
- Prédire ce qui est masqué à partir du contenu visible
- Prédire toute partie obstruée à partir des parties disponibles
Les systèmes auto-supervisés basés sur ces philosophies utilisent souvent des architectures de modèle et des techniques d'entraînement particulières.
Auto-encodeurs
Un auto-encodeur est un réseau neuronal entraîné pour compresser (ou encoder) les données d'entrée et ensuite reconstruire (ou décoder) l'entrée d'origine depuis cette représentation compressée. Ils sont entraînés pour minimiser les erreurs de reconstruction, en utilisant l'entrée d'origine elle-même comme base de référence.
Si les architectures des auto-encodeurs varient, elles intègrent généralement une forme de goulot d'étranglement : à mesure que les données traversent le réseau encodeur, la capacité de données de chaque couche est réduite progressivement. Cela force le réseau à uniquement apprendre les modèles les plus importants qui sont cachés dans les données d'entrée (appelés variables latentes ou espace latent) de sorte que le réseau décodeur puisse reconstruire avec précision l'entrée d'origine, même s'il a désormais moins d'informations.
Les modifications apportées à ce framework de base permettent aux auto-encodeurs d'apprendre des fonctionnalités et des fonctions utiles.
- Les auto-encodeurs débruiteurs reçoivent des données d’entrée en partie corrompues et sont entraînés à restaurer l’entrée d’origine en supprimant les informations inutiles (ce qu'on appelle le bruit). Cela réduit le surajustement et rend ces modèles utiles pour les tâches telles que la restauration des images et des données audio corrompues en entrée.
- Si la plupart des auto-encodeurs encodent des modèles discrets d'espace latent, les auto-encodeurs variationnels (VAE) emploient quant à eux des modèles continus d'espace latent dans l'apprentissage. En encodant des représentations latentes des données d'entrée sous forme de distribution de probabilités, le décodeur peut générer de nouvelles données grâce à un échantillonnage aléatoire d'un vecteur parmi cette distribution.
Auto-régression
Les modèles auto-régressifs prédisent les comportements futurs sur la base des comportements passés. Ils fonctionnent selon la logique qui veut que toutes les données présentant un ordre séquentiel inné, comme le langage, l'audio ou la vidéo, puissent être modélisées par régression.
Les algorithmes d’auto-régression modélisent des séries chronologiques en utilisant la valeur du ou des intervalles temporels précédents pour prédire la valeur de l’intervalle temporel suivant. Contrairement aux algorithmes de régression conventionnels, comme ceux utilisés pour la régression linéaire, où des variables indépendantes sont utilisées pour prédire une valeur cible (ou une variable dépendante), dans l’auto-régression, variable indépendante et variable dépendante ne font qu'un : on parle justement d’auto-régression car la régression est effectuée sur la variable elle-même.
L'auto-régression est largement utilisée dans les modèles de langage causals, comme les LLM de type GPT, LLaMa et Claude, qui excellent dans les tâches telles que la génération de texte et la réponse aux questions. Lors de l'entraînement préliminaire, les modèles de langage reçoivent des exemples de début de phrase provenant de données non étiquetées et sont chargés de prédire le prochain mot. Dans ce cas, c'est le mot suivant "réel" dans la phrase d'exemple qui sert de vérité terrain.
Masquage
Une autre méthode d'apprentissage auto-supervisé consiste à cacher certaines parties d'un échantillon de données non étiqueté et à demander aux modèles de prédire ou de reconstituer les informations manquantes. Les fonctions de perte utilisent l'entrée d'origine (avant masquage) comme vérité terrain. Par exemple, les auto-encodeurs masqués effectuent l'exercice opposé des auto-encodeurs débruiteurs : ils apprennent à prédire et à restaurer les informations manquantes (et non à supprimer les informations superflues).
Le masquage est aussi utilisé pour entraîner les modèles de langage masqué : des mots aléatoires sont omis des exemples de phrases et les modèles s'exercent à les remplir. Si les modèles de langage masqué comme BERT (et les nombreux modèles dérivés de son architecture, comme BART et RoBERTa) sont souvent moins aptes à générer du texte que les modèles auto-régressifs, ils ont l’avantage d’être bidirectionnels : ils peuvent prédire le mot suivant, mais aussi des mots précédents et des mots venant plus tard dans une séquence. Cela les rend bien adaptés aux tâches nécessitant une solide compréhension contextuelle, comme la traduction, le résumé et la recherche.
Prédiction des relations innées
La prédiction des relations innées entraîne un modèle à maintenir sa compréhension d'un échantillon de données après son altération. Par exemple, en faisant pivoter une image d'entrée et en demandant à un modèle de prédire le degré de changement et la direction de rotation par rapport à l'entrée d'origine.5