En muchos entornos del mundo real, la precisión y la capacidad de un modelo de inteligencia artificialno son, por sí solas, suficientes para que el modelo sea útil: también debe ajustarse al presupuesto disponible de tiempo, memoria, dinero y recursos computacionales.
Los modelos más eficaces para una tarea determinada suelen ser demasiado grandes, lentos o caros para la mayoría de los casos de uso, pero a menudo tienen cualidades únicas que surgen de la combinación de su tamaño y su capacidad de preentrenamiento en una cantidad masiva de datos de entrenamiento. Estas habilidades emergentes son especialmente evidentes en los modelos de lenguaje autorregresivos, como GPT o Llama, que exhiben capacidades más allá de su objetivo de entrenamiento explícito de simplemente predecir la siguiente palabra en una secuencia. Por el contrario, los modelos pequeños son más rápidos y menos exigentes en términos de computación, pero carecen de la precisión, el refinamiento y la capacidad de conocimiento de un modelo grande con muchos más parámetros.
En el artículo fundacional de 2015, "Distilling the Knowledge in a Neural Network", Hinton et al propusieron sortear estas limitaciones al dividir el entrenamiento en dos etapas distintas con propósitos diferentes. Los autores presentaron una analogía: mientras que muchos insectos tienen una forma larvaria optimizada para extraer energía y nutrientes del entorno y una forma adulta totalmente diferente optimizada para viajar y reproducirse, el deep learning convencional utiliza los mismos modelos tanto para la fase de entrenamiento como para la de despliegue, a pesar de sus diferentes requisitos.
Inspirándose tanto en la naturaleza como en el trabajo de Caruana et al, Hinton et al sugirieron que el entrenamiento de modelos grandes y engorrosos vale la pena si hacerlo es la mejor manera de extraer la estructura de los datos, pero presentaron un tipo diferente de entrenamiento, la destilación, para transferir ese conocimiento a un modelo pequeño más adecuado para la implementación en tiempo real.2
Las técnicas de destilación del conocimiento tienen como objetivo no solo replicar los resultados de los modelos docentes, sino también emular sus "procesos de pensamiento". En la era de los LLM, KD ha permitido la transferencia de cualidades abstractas como el estilo, la capacidad de razonamiento y la alineación con las preferencias y valores humanos3.
Además, los modelos más pequeños son en esencia más explicables: en un modelo con cientos de miles de millones de parámetros, es difícil interpretar las contribuciones de diferentes partes de la red neuronal. Transferir las representaciones aprendidas con grandes modelos de "caja negra" a modelos más simples puede ayudar a dilucidar conocimientos transformadores en campos como el diagnóstico médico y el descubrimiento molecular4.