¿Qué es el aprendizaje zero-shot?

Publicado: 24 de enero de 2024
Colaboradores: Dave Bergmann

El aprendizaje zero-shot (ZSL) es un escenario de machine learning en el que se entrena un modelo de IA para reconocer y categorizar objetos o conceptos sin haber visto previamente ningún ejemplo de esas categorías o conceptos.

La mayoría de los modelos de deep learning de última generación para clasificación o regresión se entrenan a través del aprendizaje supervisado, que requiere muchos ejemplos etiquetados de clases de datos relevantes. Los modelos "aprenden" haciendo predicciones en un conjunto de datos de entrenamiento etiquetado; las etiquetas de datos proporcionan tanto la gama de posibles respuestas como las respuestas correctas (o la verdad del terreno) para cada ejemplo de entrenamiento. "Aprendizaje", aquí, significa ajustar las ponderaciones del modelo para minimizar la diferencia entre las predicciones del modelo y esa verdad del terreno. Este proceso requiere muestras etiquetadas suficientes para muchas rondas de formación y actualizaciones. 

Si bien el aprendizaje supervisado es potente, no es práctico en algunos escenarios del mundo real. Anotar grandes cantidades de muestras de datos es costoso y requiere mucho tiempo, y en casos como enfermedades raras y especies recién descubiertas, los ejemplos pueden ser escasos o inexistentes. Considere las tareas de reconocimiento de imágenes: según un estudio, los humanos pueden reconocer aproximadamente 30 000 categorías de objetos distinguibles individualmente.¹ No es factible, en términos de tiempo, coste y recursos computacionales, que los modelos de inteligencia artificial se acerquen de forma remota a las capacidades humanas si deben entrenarse explícitamente con datos etiquetados para cada clase.

La necesidad de que los modelos de machine learning puedan generalizarse rápidamente a un gran número de categorías semánticas con una sobrecarga mínima de formación ha dado lugar al aprendizaje n-shot: un subconjunto de machine learning que también incluye aprendizaje few-shot  (FSL) y aprendizaje one-shot. Por lo general, el aprendizaje few-shot utiliza métodos basados en el aprendizaje por transferencia y el metaaprendizajepara entrenar modelos que reconozcan rápidamente nuevas clases con solo unos pocos ejemplos de entrenamiento etiquetados o, en el aprendizaje único, un solo ejemplo etiquetado.

Aprendizaje zero-shot, como todo el aprendizaje n-shot, no se refiere a ningún algoritmo específico o arquitectura de red neuronal, sino a la naturaleza del problema de aprendizaje en sí: en ZSL, el modelo no está entrenado en ningún ejemplo de las clases no vistas para hacer predicciones posteriores.

Esta configuración del problema no tiene en cuenta si esa clase estaba presente (aunque no estaba etiquetada) en los datos de entrenamiento. Por ejemplo, algunos modelos de lenguaje grande (LLM) son adecuados para tareas ZSL, ya que están preentrenados a través del aprendizaje autosupervisado en un corpus masivo de textos que puede contener referencias incidentales o conocimientos sobre clases de datos no vistas. Sin ejemplos etiquetados sobre los que dibujar, los métodos ZSL dependen del uso de dicho conocimiento auxiliar para realizar predicciones.

Dada su versatilidad y su amplia gama de casos de uso, el aprendizaje zero-shot se ha convertido en un área cada vez más notable de investigación en ciencia de datos, especialmente en los campos de visión por ordenador y procesamiento del lenguaje natural (PLN).

Aprendizaje generalizado zero-shot (GSZL)

En una configuración ZSL convencional, el modelo se prueba en un conjunto de datos que contiene muestras de clases de datos no vistas. Si bien es útil para desarrollar y validar metodologías zero-shot, no refleja las condiciones más comunes del mundo real: el aprendizaje generalizado zero-shot (GSZL) se refiere al problema específico de aprendizaje zero-shot en el que los puntos de datos que el modelo tiene la tarea de clasificar pueden pertenecer a clases no vistas o clases vistas: clases que el modelo ya ha "aprendido" a partir de ejemplos etiquetados.

GSZL debe superar un desafío adicional: la tendencia a los clasificadores a sesgar predicciones hacia las clases que ha visto en la formación sobre clases no vistas a las que aún no se ha expuesto. Como tal, GSZL a menudo requiere técnicas adicionales para mitigar ese sesgo.

Por qué la gobernanza de IA es un imperativo empresarial para escalar la IA empresarial

Obtenga información sobre las barreras para la adopción de la IA, en particular la falta de soluciones de gestión de riesgos y gobernanza de la IA.

Contenido relacionado

Regístrese para recibir la guía sobre modelos fundacionales

¿Cómo funciona el aprendizaje zero-shot?

En ausencia de ejemplos etiquetados de las categorías para cuyo aprendizaje se está entrenando el modelo, los problemas de aprendizaje zero-shot hacen uso de información auxiliar: descripciones textuales, atributos, representaciones incrustadas u otra información semántica relevante para la tarea en cuestión.

En lugar de modelar directamente los límites de decisión entre clases, las técnicas de aprendizaje zero-shot suelen generar un vector de probabilidad que representa la probabilidad de que una entrada determinada pertenezca a ciertas clases. Los métodos GSZL pueden agregar un discriminador preliminar que primero determina si la muestra pertenece a una clase vista o a una nueva clase y, a continuación, proceda en consecuencia.

Comprender las etiquetas

En el aprendizaje supervisado, así como en el aprendizaje few-shot (FSL), el modelo aprende a reconocer diferentes clases observando directamente uno o más ejemplos etiquetados de cada clase. Sin estas anotaciones explícitas que les sirvan de guía, el aprendizaje zero-shot requiere una comprensión más fundamental del significado de la etiqueta. 

Para una analogía simple, imagina que un niño quiere saber cómo se ve un pájaro. En un proceso parecido al aprendizaje supervisado o al FSL, el niño aprende mirando imágenes etiquetadas como "pájaro" en un libro de fotos de animales. En el futuro, reconocerá a un pájaro porque se asemeja a las imágenes de pájaros que ya ha visto. Pero en un escenario ZSL, no hay ejemplos etiquetados disponibles. En cambio, el niño podría leer una entrada de la enciclopedia sobre aves y aprender que son animales de tamaño pequeño o mediano con plumas, picos y alas que pueden volar por el aire. Luego podrá reconocer a un pájaro en el mundo real, aunque nunca haya visto uno antes, porque ha aprendido el concepto de un pájaro.

Como se mencionó anteriormente, los LLM han demostrado potencial natural para ZSL, derivado de su capacidad para comprender fundamentalmente el significado de las palabras utilizadas para nombrar clases de datos.

Aprendizaje por transferencia

Para minimizar el tiempo y los recursos necesarios para el entrenamiento, así como la cantidad de información auxiliar necesaria para identificar las clases invisibles, ZSL a menudo aprovecha el aprendizaje por transferencia (la reutilización de un modelo entrenado para una nueva tarea) en lugar de entrenar modelos desde cero. 

El aprendizaje por transferencia se utiliza de forma prominente en métodos ZSL que representan clases y muestras como incrustaciones semánticas. Por ejemplo, un modelo que realiza una clasificación de texto zero-shot podría usar un modelo basado en transformadores como BERT, ya entrenado previamente en un corpus masivo de datos lingüísticos, para convertir palabras en incrustaciones vectoriales. Del mismo modo, un modelo de clasificación de imágenes zero-shot podría reutilizar una red neuronal convolucional (CNN) preentrenada como ResNet o U-Net, ya que ya habrá aprendido pesos de filtro propicios para identificar las características de imagen importantes que podrían informar la clasificación.

El aprendizaje por transferencia es particularmente importante para GSZL, ya que el conocimiento del modelo sobre las clases vistas se puede utilizar como información auxiliar sobre las clases invisibles.  Por ejemplo, imagine que un modelo de detección de objetos ya ha aprendido a reconocer a los osos pardos. En lugar de entrenarlo para que también reconozca a los osos polares proporcionándole ejemplos etiquetados de osos polares, se le puede entrenar para que comprenda que los osos polares se parecen a los osos pardos con pelaje blanco.

Este proceso de transferencia del conocimiento aprendido a nuevas tareas y diferentes clases también se conoce como adaptación de dominio.

Métodos basados en atributos

Los métodos de aprendizaje zero-shot basados en atributos utilizan una lógica similar a la del aprendizaje supervisado convencional. En lugar de entrenar directamente un clasificador en ejemplos etiquetados de cada clase de datos, los clasificadores se entrenan en entidades etiquetadas de ciertas clases de datos, como color, forma u otras características clave.

Aunque las clases de destino no se ven directamente en el entrenamiento, se puede inferir la etiqueta de una clase no vista si sus atributos se parecen a las clases de atributos presentes en los datos de entrenamiento.

Una vez que el clasificador ha aprendido todas las características relevantes, puede utilizar descripciones semánticas de diferentes clases. Este enfoque es especialmente útil cuando los ejemplos etiquetados de una clase de destino no están disponibles, pero los ejemplos etiquetados de sus entidades características son relativamente abundantes. Por ejemplo, un modelo puede aprender "rayas" de imágenes de tigres y cebras; puede aprender "amarillo" de imágenes de canarios e "insecto volador" de imágenes de moscas. El modelo ahora puede realizar una clasificación zero-shot de abejas, a pesar de la ausencia de imágenes de abejas en el conjunto de entrenamiento, porque puede entenderlas como una combinación de características aprendidas: "insectos voladores amarillos a rayas".

Si bien son versátiles y útiles en las circunstancias adecuadas, los métodos ZSL basados en atributos tienen importantes inconvenientes:

Se basan en la suposición clave de que cada clase puede describirse con un único vector de atributos, lo que no siempre es el caso. Mall, Hariharan y Bala citan los ejemplos del jilguero americano, cuyos patrones de color y plumaje varían según el sexo, la edad y el estado de reproducción, y de las canchas de bádminton al aire libre, que varían ampliamente en términos de color, superficie y presencia (o ausencia) de líneas formales.^{número arábigo}
Anotar ejemplos de atributos individuales puede ser tan costoso y llevar tanto tiempo como anotar ejemplos de una clase determinada.
Los métodos basados en atributos no se pueden generalizar a clases cuyos atributos son desconocidos o no están presentes en los ejemplos disponibles.

Métodos basados en incrustaciones

Muchos métodos ZSL representan clases y muestras como incrustaciones semánticas: representaciones vectoriales que se pueden utilizar para reflejar las entidades o el significado de (y la relación entre) diferentes puntos de datos. Luego, la clasificación se determina midiendo la similitud entre la incrustación semántica de una muestra determinada y las incrustaciones de las diferentes clases en las que podría clasificarse.

Una vez que los puntos de datos se han representado como incrustaciones, la clasificación se determina utilizando principios similares a los de los algoritmos de  Vecinos K más cercanos: cierta métrica de distancia, como similitud coseno, distancia euclidiana o distancia de Wasserstein, se utiliza para medir la proximidad de la entrada de los datos a cada clase. Cuanto más cercana (o más similar) sea la incrustación de esa muestra de datos a la incrustación de una clase determinada, más probable es que pertenezca a esa clase.

Estas incrustaciones se pueden generar de varias maneras. Por ejemplo:

Los modelos preformados y algoritmos como BERT, word2vec o GloVe (Global Vectors) pueden generar fácilmente incrustaciones vectoriales de palabras (como los nombres de las etiquetas de clase).
Del mismo modo, las redes de codificadores de CNN preentrenados como ResNet (o codificadores de imágenes basados en transformadores como ViT) pueden hacer lo mismo para las imágenes.
Los codificadores automáticos pueden aprender representaciones latentes: codificaciones de menor dimensión comprimidas que aíslan las variables más distinguidas de una entrada de datos dada, como muestras o clases.
En lugar del aprendizaje por transferencia, se puede entrenar una variedad de arquitecturas de redes neuronales desde cero con datos de entrenamiento relevantes, como muestras de clases de datos relevantes para las que hay ejemplos etiquetados disponibles, para generar incrustaciones efectivas.

Espacio de incrustación conjunta
Como los métodos basados en la incrustación suelen procesar información auxiliar y la incrustación en el espacio vectorial de diferentes formas (o modalidades) de datos (como la incrustación de palabras que describen una etiqueta de clase y la incrustación de imágenes de una fotografía que puede pertenecer a esa clase), requieren una forma de facilitar la comparación entre las incrustaciones de diferentes tipos de datos.

Para compararlas, las incrustaciones vectoriales de diferentes tipos y tamaños deben normalizarse y proyectarse en un espacio semántico de alta dimensión compartido, denominado espacio de incrustación conjunta, donde se pueden comparar en un entorno de manzana a manzana. En términos abstractos, esto funciona de manera similar al concepto de encontrar el mínimo común denominador para comparar fracciones diferentes. Un mapeo correlativo sólido entre diferentes fuentes de incrustación es esencial para el rendimiento de generalización de un modelo.³

Algunos modelos de aprendizaje zero-shot también utilizan el aprendizaje contrastivo para alinear mejor las incrustaciones semánticas de diferentes modelos o algoritmos: mediante el uso de pares de incrustaciones semánticas, el aprendizaje contrastivo entrena modelos para minimizar la distancia entre pares "positivos" (como la incrustación de una imagen de un perro y la de la palabra "perro") y maximizar la distancia entre pares "negativos" (no coincidentes).

Formación conjunta de principio a fin
Una forma eficaz de garantizar la alineación entre incrustaciones de diferentes modelos es entrenar conjuntamente esos modelos uno al lado del otro. Por ejemplo, el modelo de preentrenamiento contrastivo lengua-imagen (CLIP) de OpenAI se entrenó en un enorme conjunto de datos no etiquetado de más de 4 millones de pares de imágenes de Internet.

Estos emparejamientos se utilizaron para entrenar conjuntamente un codificador de imágenes y un codificador de texto desde cero, utilizando pérdida de contraste para maximizar la similitud del coseno entre las incrustaciones de imágenes y las incrustaciones de sus correspondientes leyendas. Esto dio una capacidad natural para la clasificación zero-shot: sin ajuste preciso, CLIP demostró un sólido rendimiento de clasificación en 27 conjuntos de datos de clasificación de imágenes diferentes.

Métodos basados en generativos

La IA generativa ofrece una solución alternativa al problema de aprendizaje zero-shot: utilizar información auxiliar para generar datos de muestra.

Los métodos basados en generación pueden aprovechar las representaciones semánticas de clases invisibles para generar muestras que, una vez etiquetadas, se pueden usar para convertir el problema de aprendizaje en aprendizaje supervisado estándar. Aunque las muestras no etiquetadas (o representaciones de clases vistas estrechamente relacionadas) pueden ayudar en la síntesis de muestras, en un entorno zero-shot, este proceso a menudo se basa principalmente en descripciones semánticas.

Los LLM pueden reducir la mano de obra necesaria para producir descripciones de alta calidad: en el documento de lanzamiento de su modelo de generación de texto a imagen DALL-E 3, OpenAI señaló que los subtítulos sintéticos incluso mejoraban el rendimiento del modelo en comparación con los subtítulos con la "verdad básica".⁵

Autocodificadores variacionales
Los autocodificadores variacionales (VAE) son modelos generativos autosupervisados que aprenden las representaciones latentes de los datos de entrenamiento como una distribución parametrizada de las variables latentes. En otras palabras, aprenden a codificar una clase de datos no como una incrustación semántica estática, sino como una distribución de probabilidad en el espacio latente. El decodificador se puede utilizar para generar una muestra aleatoria a partir de ese espacio latente. Los VAE condicionales (CVAE) pueden restringir las propiedades de las muestras sintetizadas maximizando la probabilidad de las variables elegidas.

Redes generativas adversariales (GAN)
Las GAN constan de dos redes neuronales, entrenadas conjuntamente en un juego adversario de suma cero: un generador que utiliza atributos semánticos y ruido gaussiano para sintetizar muestras y un discriminador que determina si las muestras son reales o sintetizadas. La retroalimentación del discriminador se utiliza para entrenar al generador hasta que el discriminador ya no puede distinguir entre muestras reales y falsas. Desde el documento original de GAN en 2014, se han desarrollado una serie de modificaciones para refinar y estabilizar este proceso.

VAEGAN
Tanto los VAE como las GAN presentan inconvenientes:

Los VAE son estables, pero tienden a generar imágenes borrosas debido a la naturaleza de cómo se reconstruyen las muestras a partir del espacio latente.
Las GAN aprenden a generar imágenes de alta calidad, pero son propensas a la desestabilización porque deben converger dos procesos de entrenamiento separados y distintos.

Aunque se han desarrollado varias modificaciones para refinar y estabilizar ambos procesos, la combinación de las dos arquitecturas de modelo ha dado lugar a resultados prometedores en un ajuste zero-shot.⁶

Grandes modelos de lenguaje (LLM)
Los LLM también se pueden usar para sintetizar muestras etiquetadas: por ejemplo, usar un modelo autorregresivo como Llama 2 para generar muestras que se pueden usar para entrenar un modelo de lenguaje bidireccional como Llama 2 para generar muestras para tareas de clasificación de texto.

Soluciones relacionadas

IBM watsonx.ai

Entrenar, validar, ajustar e implementar IA generativa, modelos fundacionales y capacidades de aprendizaje automático con facilidad y crear aplicaciones de IA en una fracción del tiempo con una fracción de los datos.

Explore watsonx.ai

Servicios de consultoría de IA

Reimagine su forma de trabajar con la IA: nuestro equipo diverso y global de más de 20 000 expertos en IA puede ayudarle a diseñar y escalar la IA y la automatización de forma rápida y segura en toda su empresa, trabajando con nuestra propia tecnología IBM watsonx y un ecosistema abierto de socios para ofrecer cualquier modelo de IA, en cualquier nube, guiado por la ética y la confianza.

Explore servicios de consultoría de IA de IBM

IBM watsonx.data

Amplíe la analítica y la inteligencia artificial con todos sus datos, dondequiera que residan, con formatos abiertos para acceder a todos sus datos a través de un único punto de entrada y una interfaz conversacional generativa basada en inteligencia artificial para encontrar, aumentar y visualizar los datos fácilmente y desbloquear nuevos conocimientos sobre los datos.

Explore IBM watsonx.data

Recursos de aprendizaje zero-shot

Ejemplos de indicaciones del modelo fundacional para tareas comunes

No existe una única forma correcta de generar modelos fundacionales. Pero se han encontrado patrones fiables en la academia y la industria. Utilice los ejemplos de este tutorial para desarrollar sus habilidades y su intuición sobre la ingeniería de avisos, incluso para tareas zero-shot, a través de la experimentación.

¿Qué es el aprendizaje autosupervisado?

El aprendizaje autosupervisado se utiliza en el entrenamiento de una amplia gama de sofisticadas arquitecturas de aprendizaje profundo para diversas tareas, desde LLM basados en transformadores como BERT y GPT hasta modelos de síntesis de imágenes como los autoencodificadores variacionales (VAE) y las redes generativas adversariales (GAN), pasando por modelos de computer vision como SimCLR y Momentum Contrast (MoCo).

El entrenamiento multitarea permite la generalización de tareas zero-shot

Los LLM demuestran una generalización razonable zero-shot en un conjunto diverso de tareas. Se ha planteado la hipótesis de que esto es consecuencia del aprendizaje multitarea implícito en el entrenamiento. ¿Se puede inducir directamente la generalización zero-shot mediante el aprendizaje multitarea explícito? Probamos esta pregunta a escala.

Dé el siguiente paso

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para constructores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai

Solicite una demostración en directo

Notas a pie de página

^{Todos los enlaces son externos a ibm.com}¹ "Recognition-by-components: A theory of human image understanding", Psychological Review vol. 94 (pp. 115–147), 1987.
² "Zero-shot Learning Using Multimodal Descriptions," Actas de los talleres de la Conferencia IEEE/CVF sobre visión por ordenador y reconocimiento de patrones (CVPR), 2022.
³ "Data-Efficient Language-Supervised Zero-Shot Learning with Self-Distillation," arXiv, 18 de abril de 2021.
⁴ "CLIP: Connecting text and images," OpenAI, 5 de enero de 2021.
⁵ "Improving Image Generation with Better Captions," OpenAI, 2023.
⁶ "Zero-VAE-GAN: Generating Unseen Features for Generalized and Transductive Zero-Shot Learning," PubMed, 13 de enero 2023.