In vielen realen Umgebungen sind Genauigkeit und Kapazität eines Modells für künstliche Intelligenz nicht für sich selbst ausreichend, um das Modell nützlich zu machen: Es muss auch den verfügbaren Zeit-, Speicher-, Geld- und Rechenressourcen entsprechen.
Die leistungsstärksten Modelle für eine bestimmte Aufgabe sind oft zu groß, zu langsam oder zu teuer für die meisten praktischen Anwendungsfälle. Sie haben jedoch oft einzigartige Qualitäten, die sich aus einer Kombination aus ihrer Größe und ihrer Fähigkeit zum Vortraining mit einer riesigen Menge an Trainingsdaten ergeben. Diese aufkommenden Fähigkeiten sind besonders bei autoregressiven Sprachmodellen wie GPT oder Llama erkennbar, die über ihr explizites Schulungsziel hinausgehen, einfach das nächste Wort in einer Sequenz vorherzusagen. Umgekehrt sind kleine Modelle schneller und weniger rechenintensiv, haben aber nicht die Genauigkeit, Verfeinerung und Wissenskapazität eines großen Modells mit weitaus mehr Parametern.
In der wegweisenden Arbeit „Distilling the Knowledge in a Neural Network“ aus dem Jahr 2015 schlugen Hinton et al. vor, diese Einschränkungen zu umgehen, indem sie das Training in zwei verschiedene Phasen mit unterschiedlichen Zwecken unterteilten. Die Autoren stellten eine Analogie vor: Während viele Insekten eine Larvenform haben, die für die Aufnahme von Energie und Nährstoffen aus der Umwelt optimiert ist, und eine völlig andere erwachsene Form, die für die Fortbewegung und Fortpflanzung optimiert ist, werden beim herkömmlichen Deep Learning trotz der unterschiedlichen Anforderungen dieselben Modelle sowohl für die Trainings- als auch für die Bereitstellungsphase verwendet.
In Anlehnung an das Beispiel und die Arbeit von Caruana et al. schlugen Hinton et al. vor, dass es sich lohnt, große, komplexe Modelle zu trainieren, wenn dies der beste Weg ist, eine Struktur aus den Daten zu extrahieren – aber sie führten eine andere Art von Training ein, die Destillation, um dieses Wissen auf ein kleines Modell zu übertragen, das besser für die Bereitstellung in Echtzeit geeignet ist.2
Die Techniken der Wissensdestillation zielen nicht nur darauf ab, die Outputs von Lehrermodellen zu replizieren, sondern auch deren „Denkprozesse“ nachzuahmen. Im Zeitalter der LLMs hat Wissensdestillation die Übertragung abstrakter Qualitäten wie Stil, Argumentationsfähigkeiten und Ausrichtung auf menschliche Vorlieben und Werte ermöglicht.3
Darüber hinaus sind kleinere Modelle grundsätzlich besser erklärbar: In einem Modell mit Hunderten von Milliarden von Parametern ist es schwierig, die Beiträge verschiedener Teile des neuronalen Netzes zu interpretieren. Die Übertragung von Repräsentationen, die von großen „Blackbox-Modellen“ gelernt werden, auf einfachere Modelle kann dazu beitragen, transformative Erkenntnisse in Bereichen wie der medizinischen Diagnose und der molekularen Entdeckung zu gewinnen.4