Dans un environnement réel, la précision et la capacité des modèles d’intelligence artificielle sont généralement insuffisantes pour rendre le modèle utile. Ce dernier doit également s’adapter au temps, à la mémoire, au budget et aux ressources informatiques disponibles.
Les modèles les plus performants sur une tâche donnée sont souvent trop grands, trop lents ou trop coûteux, et ce quel que soit le cas d’utilisation, ou presque. En revanche, ils possèdent souvent des qualités uniques, qu’ils doivent à leur taille et à leur capacité de pré-entraînement sur une immense quantité de données d’entraînement. Ces capacités émergentes sont particulièrement évidentes dans le cas des modèles de langage autorégressifs, comme GPT ou Llama, qui présentent des capacités au-delà de leur objectif d’entraînement explicite, à savoir prédire le mot suivant dans une séquence. Inversement, les petits modèles sont plus rapides et moins exigeants en matière de calcul, mais ils affichent un niveau de précision, d’affinement et de connaissance inférieur à celui d’un grand modèle qui comporte un nombre de paramètres beaucoup plus important.
Dans un article précurseur publié en 2015, « Distilling the Knowledge in a Neural Network », Hinton et al proposaient de contourner ces limites en divisant l’entraînement en deux phases, avec des objectifs bien distincts. Les auteurs ont fait l’analogie suivante : alors que de nombreux insectes ont développé une forme larvaire pour puiser énergie et nutriments dans l’environnement, et une forme adulte, complètement différente, pour se déplacer et se reproduire, l’apprentissage profond classique utilise les mêmes modèles pour les phases d’entraînement et de déploiement, malgré les différentes exigences de ces dernières.
S’inspirant à la fois de la nature et des travaux de Caruana et al, Hinton et al conseillaient l’entraînement de grands modèles encombrants si ces derniers s’avéraient être le meilleur moyen d’extraire la structure des données, mais ils préconisaient un autre type d’entraînement, la distillation, pour transférer ces connaissances à un petit modèle, plus adapté au déploiement en temps réel.2
Les techniques de distillation des connaissances visent non seulement à reproduire les sorties des modèles enseignants, mais aussi à imiter leurs « processus de pensée ». À l’ère des LLM, la distillation de connaissances a permis le transfert de qualités abstraites comme le style, la capacité de raisonnement et l’alignement sur les préférences et les valeurs humaines.3
En outre, les modèles plus petits sont foncièrement plus explicables : dans le cas d’un modèle qui comporte des centaines de milliards de paramètres, il est difficile d’interpréter les contributions des différentes parties du réseau neuronal. Transférer les représentations apprises par les grands modèles de type « boîte noire » aux modèles plus simples présente un potentiel de transformation dans des domaines tels que le diagnostic médical et la découverte moléculaire.4