Mi IBM

Iniciar sesión

Suscríbase

¿Qué es el aprendizaje zero-shot?

24 de enero de 2024

Autores

Dave Bergmann

Senior Writer, AI Models

IBM

¿Qué es el aprendizaje zero-shot?

El aprendizaje zero-shot (ZSL, siglas en inglés de zero-shot learning) es un escenario de aprendizaje automático en el que se entrena un modelo de IA para reconocer y categorizar objetos o conceptos sin haber visto ejemplos de esas categorías o conceptos de antemano.

La mayoría de los modelos de aprendizaje profundo de última generación previstos para hacer clasificación o regresión se entrenan a través de aprendizaje supervisado, que requiere muchos ejemplos etiquetados de clases de datos relevantes. Los modelos “aprenden” haciendo predicciones en un conjunto de datos de entrenamiento etiquetado; las etiquetas de datos proporcionan tanto el rango de respuestas posibles como las respuestas correctas (o la verdad fundamental) para cada ejemplo de entrenamiento. Aquí, “aprender”, significa ajustar las ponderaciones del modelo para minimizar la diferencia entre las predicciones del modelo y esa verdad fundamental (ground truth). Este proceso requiere suficientes muestras etiquetadas para muchas rondas de entrenamiento y actualizaciones.

Si bien el aprendizaje supervisado es eficaz, no es práctico en algunos escenarios del mundo real. Anotar grandes cantidades de muestras de datos es costoso y requiere mucho tiempo, y en casos como enfermedades raras y especies recién descubiertas, los ejemplos pueden ser escasos o inexistentes. Considere las tareas de reconocimiento de imágenes: según un estudio, los humanos son capaces de reconocer aproximadamente 30 000 categorías individuales de objetos.¹ No es factible, en términos de tiempo, costo y recursos computacionales, que los modelos de inteligencia artificial se acerquen ni remotamente a las capacidades humanas si deben capacitarse explícitamente en datos etiquetados para cada clase.

La necesidad de que los modelos de aprendizaje automático puedan generalizar rápidamente a una gran cantidad de categorías semánticas con una sobrecarga de entrenamiento mínima ha dado lugar al aprendizaje n-shot: un subconjunto del aprendizaje automático que también incluye aprendizaje few-shot(FSL, siglas en inglés de few-shot learning) y aprendizaje one-shot. El aprendizaje few-shot suele utilizar métodos basados en el aprendizaje por transferenciay el metaaprendizaje para entrenar a los modelos a fin de que reconozcan rápidamente nuevas clases con solo unos cuantos ejemplos de entrenamiento etiquetados o, en el aprendizaje one-shot, un solo ejemplo etiquetado.

El aprendizaje zero-shot, como todo el aprendizaje n-shot, no se refiere a ningún algoritmo específico o arquitectura de red neuronal, sino a la naturaleza del propio problema de aprendizaje: en ZSL, el modelo no se entrena en ejemplos etiquetados de las clases no vistas anteriormente (o clases nuevas) sobre las que se le pide que haga predicciones después del entrenamiento.

La configuración de este problema no tiene en cuenta si esa clase estaba presente (aunque sin etiquetar) en los datos de entrenamiento. Por ejemplo, algunos LLM son adecuados para tareas de ZSL, ya que están preentrenados mediante aprendizaje autosupervisado en un corpus descomunal de texto que puede contener referencias incidentales o conocimiento sobre clases de datos no vistas anteriormente. Sin ejemplos etiquetados a los que recurrir, todos los métodos ZSL se basan en el uso de dicho conocimiento auxiliar para hacer predicciones.

Dada su versatilidad y amplia gama de casos de uso, el aprendizaje zero-shot se ha convertido en un área de investigación cada vez más notable en la ciencia de datos, particularmente en los campos de la visión artificial y el procesamiento de lenguaje natural (PLN).

Aprendizaje zero-shot generalizado (GSZL)

En una configuración ZSL convencional, el modelo se prueba en un conjunto de datos que contiene muestras de clases de datos nuevas. Si bien es útil para desarrollar y validar metodologías zero-shot, no refleja las condiciones más comunes del mundo real: aprendizaje zero-shot generalizado (GSZL, siglas en inglés de generalized zero-shot learning) se refiere al problema específico de aprendizaje zero-shot en el que los puntos de datos que el modelo debe clasificar podrían pertenecer ya sea a clases nuevas o a clases ya conocidas: clases que el modelo ya ha “aprendido” a partir de ejemplos etiquetados.

El GSZL debe superar un desafío adicional: la tendencia de los clasificadores a sesgar las predicciones hacia clases ya conocidas dado el entrenamiento en lugar de clases nuevas a las que aún no ha estado expuesto. Como tal, el GSZL a menudo requiere técnicas adicionales para mitigar ese sesgo.

Las últimas novedades e insights sobre IA  

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think.

Suscríbase hoy

¿Cómo funciona el aprendizaje zero-shot?

En ausencia de ejemplos etiquetados de las categorías para las que se entrena al modelo, los problemas de aprendizaje zero-shot utilizan información auxiliar: descripciones textuales, atributos, representaciones incrustadas u otra información semántica relevante para la tarea en cuestión.

En lugar de modelar directamente los límites de decisión entre clases, las técnicas de aprendizaje zero-shot generalmente dan como resultado un vector de probabilidad que representa la posibilidad de que una entrada determinada pertenezca a ciertas clases. Los métodos de GSZL pueden agregar un discriminador preliminar que primero determina si la muestra pertenece a una clase vista o a una nueva clase y luego, procede en consecuencia.

Descripción de las etiquetas

En el aprendizaje supervisado, así como en el aprendizaje few-shot (FSL), el modelo aprende a reconocer diferentes clases observando directamente uno o más ejemplos etiquetados de cada clase. Sin estas anotaciones explícitas que lo guíen, el aprendizaje zero-shot requiere una comprensión más fundamental del significado de la etiqueta. 

Para hacer una analogía sencilla, imagine que un niño quiere aprender cómo es un pájaro. En un proceso parecido al aprendizaje supervisado o al FSL, el niño aprende mirando imágenes etiquetadas como “pájaro” en un libro de imágenes de animales. Más adelante, reconocerá un pájaro porque se parece a las imágenes de pájaros que ya ha visto. Pero en un escenario ZSL, no se dispone de tales ejemplos etiquetados. En cambio, el niño podría leer la entrada de una enciclopedia sobre pájaros y aprender que son animales de tamaño pequeño o mediano con plumas, picos y alas que pueden volar por el aire. Entonces será capaz de reconocer un pájaro en el mundo real, aunque no lo haya visto nunca, porque ha aprendido el concepto de pájaro.

Como se mencionó anteriormente, los LLM han demostrado un potencial natural para ZSL, derivado de su capacidad para comprender fundamentalmente el significado de las palabras utilizadas para nombrar clases de datos.

Transferir aprendizaje

Para reducir al máximo el tiempo y los recursos necesarios para el entrenamiento, así como la cantidad de información auxiliar necesaria para identificar clases nuevas, el ZSL a menudo aprovecha el el aprendizaje por transferencia (la reutilización de un modelo entrenado para una nueva tarea) en lugar de entrenar modelos desde cero. 

El aprendizaje por transferencia se utiliza de manera destacada en los métodos ZSL que representan clases y muestras como incorporaciones semánticas. Por ejemplo, un modelo que realiza una clasificación de texto zero-shot podría utilizar un modelo basado en un transformador como BERT, ya entrenado previamente en un corpus descomunal de datos lingüísticos, para convertir palabras en incrustaciones de vectores. Del mismo modo, un modelo de clasificación de imágenes zero-shot podría reutilizar una red neuronal convolucional (CNN, sigla en inglés de convolutional neural network), como ResNet o U-Net, ya que ya habrá aprendido ponderaciones de filtros que conducen a identificar características importantes de la imagen que podrían fundamentar la clasificación.

El aprendizaje por transferencia es particularmente importante para el aprendizaje zero-shot generalizado (GSZL, sigla en inglés de generalized zero-shot learning) en el que el conocimiento del modelo de las clases vistas se puede utilizar como información auxiliar sobre las clases nuevas. Por ejemplo, imagine que un modelo de detección de objetos ya ha aprendido a reconocer osos pardos. En lugar de entrenarlo para que también reconozca a los osos polares proporcionándole ejemplos etiquetados de osos polares, se puede entrenar para que comprenda que los osos polares se parecen a los osos pardos, pero con pelaje blanco.

Este proceso de transferir el conocimiento aprendido a nuevas tareas y diferentes clases también se conoce como adaptación de dominio.

Mixture of Experts | Podcast

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Ver los episodios

Métodos basados en atributos

Los métodos de aprendizaje zero-shot basados en atributos utilizan una lógica similar a la del aprendizaje supervisado convencional. En lugar de entrenar directamente a un clasificador con ejemplos etiquetados de cada clase de datos, los clasificadores se entrenan con características etiquetadas de ciertas clases de datos, como el color, la forma u otras características clave.

Si bien las clases objetivo no se ven directamente en el entrenamiento, la etiqueta de una clase no vista anteriormente se puede inferir si sus atributos se asemejan a las clases de atributos presentes en los datos de entrenamiento.

Una vez que el clasificador ha aprendido todas las características relevantes, puede utilizar descripciones semánticas de diferentes clases. Este enfoque es particularmente útil cuando los ejemplos etiquetados de una clase objetivo no están disponibles, pero los ejemplos etiquetados de sus rasgos característicos son relativamente abundantes. Por ejemplo, un modelo puede aprender “rayas” a partir de imágenes de tigres y cebras; puede aprender “amarillo” de imágenes de canarios e “insecto volador” de imágenes de moscas. El modelo ahora puede realizar una clasificación zero-shot de abejas, a pesar de la ausencia de imágenes de abejas en el conjunto de entrenamiento, porque puede entenderlas como una combinación de características aprendidas: “insectos voladores rayados amarillos.”

Si bien son versátiles y útiles en las circunstancias adecuadas, los métodos ZSL basados en atributos tienen importantes inconvenientes:

Se basan en el supuesto básico de que cada clase se puede describir con un único vector de atributos, lo que no siempre es así. Mall, Hariharan y Bala citan los ejemplos del jilguero americano, cuyos patrones de color y plumaje varían según el género, la edad y el estado reproductivo, y de las canchas de bádminton al aire libre, que varían ampliamente en términos de color, superficie y presencia (o ausencia) de líneas.²
Anotar ejemplos de atributos individuales puede ser potencialmente tan costoso y llevar tanto tiempo como anotar ejemplos de una clase determinada.
Los métodos basados en atributos no pueden generalizarse a clases cuyos atributos son desconocidos o no están presentes en las muestras disponibles.

Métodos basados en incrustaciones

Muchos métodos de ZSL representan tanto las clases como las muestras como incrustaciones semánticas: representaciones vectoriales que se pueden utilizar para reflejar las características o el significado de (y la relación entre) diferentes puntos de datos. Luego, la clasificación se determina midiendo la similitud entre la incrustación semántica de una muestra determinada y las incrustaciones de las diferentes clases en las que podría clasificarse.

Una vez que los puntos de datos se han representado como incrustaciones, la clasificación se determina utilizando principios similares a los de los algoritmos K vecinos más cercanos: alguna métrica de distancia, como la similitud del coseno, la distancia euclidiana o la distancia de Wasserstein, se utiliza para medir la proximidad de la incrustación de los datos de entrada a las incrustaciones para cada clase potencial. Cuanto más cercana (o más similar) sea la incrustación de esa muestra de datos a la incrustación de una clase determinada, más probable será que pertenezca a esa clase.

Estas incrustaciones se pueden generar de varias maneras. Por ejemplo:

Los modelos y algoritmos previamente entrenados como BERT, word2vec o GloVe (Global Vectors) pueden generar fácilmente incrustaciones de vectores para palabras (como los nombres de las etiquetas de clase).
Del mismo modo, las redes de codificadores de redes neuronales convolucionales (CNN, siglas en inglés de convolutional neural networks) previamente entrenadas, como ResNet (o codificadores de imágenes basados en transformadores como ViT) pueden hacer lo mismo con las imágenes.
Los autocodificadores pueden aprender representaciones latentes (codificaciones comprimidas de dimensiones inferiores que aíslan las variables más distintivas de una entrada de datos determinada) de muestras o clases.
En lugar del aprendizaje por transferencia, se pueden entrenar diversas arquitecturas de redes neuronales desde cero con datos de entrenamiento relevantes, como muestras de clases de datos relevantes para las cuales hay ejemplos etiquetados disponibles, para generar incrustaciones eficaces.

Espacio de incrustación conjunta

Dado que los métodos basados en incrustaciones suelen procesar información auxiliar e incrustaciones de espacio vectorial de diferentes formas (o modalidades) de datos, como incrustaciones de palabras que describen una etiqueta de clase y la incrustación de imágenes de una fotografía que podría pertenecer a esa clase, requieren una forma de facilitar la comparación entre incrustaciones de diferentes tipos de datos.

Para poder compararlas, las incrustaciones vectoriales de diferentes tipos y tamaños deben normalizarse y proyectarse en un espacio semántico compartido de alta dimensión, denominado espacio de incrustación conjunta, donde pueden compararse en un entorno de igual a igual. En términos abstractos, esto funciona de manera similar al concepto de encontrar el mínimo común denominador para comparar fracciones diferentes. Para que un modelo logre un rendimiento de generalización, es esencial que exista una asignación sólida y correlativa entre diferentes fuentes de incrustación³.

Algunos modelos de aprendizaje zero-shot también utilizan aprendizaje contrastivo para alinear mejor las incrustaciones semánticas de diferentes modelos o algoritmos: a través de pares de incrustaciones semánticas, el aprendizaje contrastivo entrena modelos para reducir al máximo la distancia entre pares “positivos” (como la incrustación de una imagen de un perro y la de la palabra “perro”) y aumentar al máximo la distancia entre pares “negativos” (no coincidentes).

Entrenamiento integral conjunto

Una forma eficaz de garantizar la alineación entre incrustaciones de diferentes modelos es entrenar conjuntamente esos modelos en paralelo. Por ejemplo, el modelo Contrastive Language-Image Pre-training (CLIP) de OpenAI se entrenó en un enorme conjunto de datos sin etiquetar de más de 400 millones de pares de imágenes y leyendas tomados de Internet⁴.

Estos emparejamientos se utilizaron para entrenar conjuntamente un codificador de imágenes y un codificador de texto desde cero, utilizando la pérdida contrastiva para maximizar la similitud de coseno entre las incrustaciones de imágenes y las incrustaciones de sus leyendas correspondientes. Esto generó una capacidad natural para la clasificación zero-shot: sin ajustes, CLIP demostró un sólido rendimiento de clasificación en 27 conjuntos de datos de clasificación de imágenes diferentes.

Métodos basados en IA generativa

La IA generativa ofrece una solución alternativa al problema de aprendizaje zero-shot: utilizar información auxiliar para generar datos de muestra.

Los métodos basados en modelos generativos pueden aprovechar las representaciones semánticas de clases nuevas para generar muestras que, una vez etiquetadas, se pueden usar para convertir el problema de aprendizaje en aprendizaje supervisado estándar. Aunque las muestras no etiquetadas (o representaciones de clases ya conocidas estrechamente relacionadas) pueden ayudar en la síntesis de las muestras, en un entorno zero-shot, este proceso a menudo se basa principalmente en descripciones semánticas.

Los LLM pueden reducir la mano de obra necesaria para producir descripciones de alta calidad: en el documento de lanzamiento de su modelo de generación de texto a imagen DALL-E 3, OpenAI señaló que leyendas sintéticas incluso mejoraron el rendimiento del modelo en relación con las leyendas de “verdad fundamental”⁵.

Autocodificadores variacionales

Los autocodificadores variacionales son modelos generativos autosupervisados que aprenden representaciones latentes de datos de entrenamiento como una distribución paramétrica de variables latentes. En otras palabras, aprenden a codificar una clase de datos no como una incrustación semántica estática, sino como una distribución de probabilidades en un espacio latente. Luego, el decodificador se puede usar para generar una muestra aleatoria de ese espacio latente. Los VAE condicionales (CVAE) pueden restringir las propiedades de las muestras sintetizadas maximizando la probabilidad de las variables elegidas.

Redes generativas antagónicas

Las redes generativas antagónicas (GAN) constan de dos redes neuronales entrenadas conjuntamente en un juego de suma cero antagónico: un generador que utiliza atributos semánticos y ruido gaussiano para sintetizar muestras y un discriminador que determina si las muestras son reales o “falsas” (es decir, sintetizadas por el generador ). La retroalimentación del discriminador se utiliza para entrenar al generador hasta que el discriminador ya no pueda distinguir entre muestras reales y falsas. Desde el documento original sobre GAN en 2014, se han desarrollado diversas modificaciones para refinar y estabilizar este proceso.

VAEGAN

Tanto los VAE como las GAN presentan inconvenientes:

Los VAE son estables, pero tienden a generar imágenes borrosas debido a la naturaleza de cómo se reconstruyen las muestras a partir del espacio latente.
Las GAN aprenden a generar imágenes de alta calidad, pero son propensas a la desestabilización porque deben converger dos procesos de entrenamiento separados y distintos.

Aunque se han desarrollado varias modificaciones para refinar y estabilizar ambos procesos, la combinación de las dos arquitecturas modelo ha arrojado resultados prometedores en un entorno zero-shot⁶.

Modelos de lenguaje grandes (LLM)

Los LLM también se pueden usar para sintetizar muestras etiquetadas: por ejemplo, usando un modelo autorregresivo, como Llama 2, para generar muestras que se pueden usar para entrenar un modelo de lenguaje bidireccional, como Sentence-BBERT, para tareas de clasificación de texto.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Soluciones relacionadas

IBM watsonx.ai

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Diseñe aplicaciones de IA en menos tiempo y con menos datos.

Descubra watsonx.ai

Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA

Servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA

Recursos

La guía del CEO para la IA generativa

Descubra cómo los directores ejecutivos (CEO) pueden equilibrar el valor que la IA generativa puede crear con la inversión que exige y los riesgos que representa.

Lleve sus habilidades de IA generativa al siguiente nivel

Aprenda los conceptos fundamentales y construya sus habilidades con laboratorios prácticos, cursos, proyectos guiados, ensayos y mucho más.

Desbloquee el poder de la IA generativa + ML

Aprenda a incorporar con confianza la IA generativa y el aprendizaje automático en su negocio.

Ponga la IA a trabajar: Impulso del retorno de la inversión (ROI) con IA generativa

¿Quiere rentabilizar mejor sus inversiones en IA? Descubra cómo la IA generativa escalable en áreas clave impulsa el cambio ayudando a sus mejores mentes a crear y ofrecer nuevas soluciones innovadoras.

IA en acción 2024

Encuestamos a 2000 organizaciones sobre sus iniciativas de IA para descubrir qué funciona, qué no y cómo pueden avanzar.

Explorar IBM Granite

IBM® Granite es nuestra familia de modelos abiertos de IA, de alto rendimiento y confiables, diseñados para empresas y optimizados para escalar sus aplicaciones de IA. Explore opciones de lenguaje, código, series de tiempo y medidas de protección.

Cómo elegir el modelo fundacional adecuado

Aprenda a seleccionar el modelo fundacional de IA más adecuado para su caso de uso.

Cómo prosperar en esta nueva era de la IA con confianza y seguridad

Indague en los 3 elementos críticos de una estrategia sólida de IA: crear una ventaja competitiva, escalar la IA en todo el negocio y avanzar en la IA confiable.

Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida del desarrollo de IA. Produzca potentes soluciones de IA con interfaces fáciles de usar, flujos de trabajo y acceso a API y SDK estándar de la industria.

Explore watsonx.ai

Reserve una demostración en vivo

Notas de pie de página

¹ “Recognition-by-components: A theory of human image understanding”, Psychological Review vol. 94 (págs. 115–147), 1987.
² “Zero-shot Learning Using Multimodal Descriptions”, Registros de la Conferencia de IEEE/CVF sobre los talleres de visión artificial y reconocimiento de patrones (CVPR), 2022.
³ “Data-Efficient Language-Supervised Zero-Shot Learning with Self-Distillation”, arXiv, 18 de abril de 2021.
⁴ “CLIP: Connecting text and images," OpenAI, 5 de enero de 2021.
⁵ "Improving Image Generation with Better Captions," OpenAI, 2023.
⁶ "Zero-VAE-GAN: Generating Unseen Features for Generalized and Transductive Zero-Shot Learning", PubMed, 13 de enero de 2023.