Au début de l’entraînement (ou, dans ce contexte, du préentraînement), le modèle n’a encore rien « appris ». L’entraînement commence par une initialisation aléatoire des paramètres du modèle, c’est-à-dire des poids et des biais variables appliqués aux opérations mathématiques effectuées à chaque nœud du réseau neuronal.
L’entraînement se produit de manière itérative en deux phases : dans une passe directe, le modèle effectue des prédictions pour un lot d’échantillons d’entrées à partir du jeu de données d’entraînement, et une fonction de perte mesure la différence (ou perte) entre les prédictions du modèle pour chaque entrée et les réponses « correctes » (ou « vérité terrain »). Pendant la rétropropagation, un algorithme d’optimisation (généralement la descente de gradient) est utilisé pour ajuster les poids du modèle sur le réseau afin de réduire les pertes. Le modèle « apprend » à partir des ajustements apportés à ses poids. Le processus est répété sur plusieurs phases d’entraînement, jusqu’à ce que le modèle soit jugé suffisamment entraîné.
L’apprentissage supervisé conventionnel, qui est généralement utilisé pour le préentraînement des modèles pour des tâches de vision par ordinateur telles que la classification d’images, la détection d’objets ou la segmentation d’images, utilise des données étiquetées : les étiquettes (ou annotations) fournissent à la fois l’éventail des réponses possibles et la sortie de vérité terrain pour chaque échantillon.
Les LLM sont généralement préentraînés par le biais d’un apprentissage autosupervisé (SSL), dans lequel les modèles apprennent par le biais de tâches prétextes conçues pour dériver la vérité terrain de la structure inhérente des données non étiquetées. Ces tâches prétextes transmettent des connaissances utiles pour les tâches en aval. Elles suivent généralement l’une des deux approches suivantes :
Auto-prédiction : masquer une partie de l’entrée d’origine et charger le modèle de la reconstruire. Il s’agit du principal mode d’entraînement des LLM.
Apprentissage contrastif : entraîner les modèles à apprendre des plongements similaires pour les entrées connexes et des plongements différents pour les entrées non liées. Cette approche est utilisée en grande partie dans les modèles de vision par ordinateur conçus pour l’apprentissage few-shot ou zero-shot, comme le CLIP (Contrasting Language-Image Pretraining).
Le SSL permet donc d’utiliser des jeux de données extrêmement volumineux lors de l’entraînement sans avoir à annoter des millions ou des milliards de points de données. Cela permet d’économiser énormément de travail, mais nécessite néanmoins d’énormes ressources de calcul.