Las últimas tendencias en IA, presentadas por expertos
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
El metaaprendizaje, también llamado "aprender a aprender", es una subcategoría del machine learning que entrena a los modelos de inteligencia artificial (IA) para que comprendan y se adapten a nuevas tareas por sí mismos. El objetivo principal del metaaprendizaje es proporcionar a las máquinas la habilidad para aprender a aprender.
A diferencia del aprendizaje supervisado convencional, en el que los modelos se entrenan para resolver una tarea específica utilizando un conjunto de datos de entrenamiento definido, el proceso de metaaprendizaje implica una variedad de tareas, cada una con su propio conjunto de datos asociado. A partir de estos múltiples eventos de aprendizaje, los modelos obtienen la capacidad de generalizar entre tareas, lo que les permite adaptarse rápidamente a escenarios novedosos incluso con pocos datos.
Los algoritmos de metaaprendizaje se entrenan con las predicciones y los metadatos de otros algoritmos de machine learning. Los algoritmos de metaaprendizaje luego generan sus propias predicciones e información que puede usarse para mejorar el rendimiento y los resultados de otros algoritmos de machine learning.
Obtenga conocimientos organizados sobre las noticias más importantes e intrigantes de la IA. Suscríbase a nuestro boletín semanal Think. Consulte la Declaración de privacidad de IBM.
El metaaprendizaje implica dos etapas clave: metaentrenamiento y metapruebas. Para ambas etapas, un modelo base de aprendizaje ajusta y actualiza sus parámetros a medida que aprende. El conjunto de datos utilizado se divide en un conjunto de soporte para metaentrenamiento y un conjunto de prueba para metapruebas.
En la fase de metaentrenamiento, se suministra al modelo de aprendizaje base una amplia gama de tareas. El objetivo del modelo es descubrir patrones comunes entre estas tareas y adquirir amplios conocimientos que puedan aplicarse en la resolución de nuevas tareas.
Durante la fase de metapruebas, el rendimiento del modelo base de aprendizaje se evalúa asignándole tareas a las que no se enfrentó cuando se entrenó. La eficacia del modelo se mide por lo bien y lo rápido que se adapta a estas nuevas tareas utilizando su conocimiento aprendido y su comprensión generalizada.
Hay tres enfoques típicos para el metaaprendizaje. A continuación se explica cómo funciona cada enfoque y sus diferentes tipos:
El metaaprendizaje basado en métricas se centra en el aprendizaje de una función que calcula una métrica de distancia, que es una medida de la similitud entre dos puntos de datos. Este enfoque es similar al algoritmo k-vecinos más cercanos (KNN), que utiliza la proximidad para hacer clasificaciones o predicciones.
Una red neuronal convolucional siamesa consta de redes neuronales convolucionales gemelas idénticas que comparten parámetros y ponderaciones. Las actualizaciones de parámetros se reflejan en las dos redes. Ambas redes están unidas por una función de pérdida que calcula una métrica de distancia (normalmente similitud por pares).1
El conjunto de datos de entrenamiento se compone de pares de muestras coincidentes y no coincidentes. A continuación, las redes neuronales convolucionales siamesas aprenden a calcular la similitud por pares, maximizando la distancia euclidiana entre pares no coincidentes o diferentes y minimizando la distancia entre pares coincidentes o similares.1
Las redes coincidentes aprenden a predecir la clasificación midiendo una métrica de distancia conocida como similitud de cosenos entre dos muestras.2
Una red de relaciones aprende una métrica de distancia no lineal profunda para comparar elementos. La red clasifica los elementos calculando puntuaciones de relación, que representan la similitud entre elementos.3
Las redes prototípicas calculan la media de todas las muestras de una clase para crear un prototipo para esa clase. A continuación, la red aprende un espacio métrico, en el que las tareas de clasificación se realizan calculando la distancia euclidiana al cuadrado entre un punto de datos concreto y la representación prototipo de una clase.4
El metaaprendizaje basado en modelos implica el aprendizaje de los parámetros de un modelo, lo que puede facilitar el aprendizaje rápido de datos dispersos.
Una red neuronal con memoria aumentada (MANN) está equipada con un módulo de memoria externo que permite un almacenamiento estable y una codificación y recuperación rápidas de la información.5
En el metaaprendizaje, las MANN pueden ser entrenados para aprender una técnica general para los tipos de representaciones que se almacenan en la memoria externa y un método para usar esas representaciones para hacer predicciones. Se ha demostrado que las MANN tienen un buen rendimiento en tareas de regresión y clasificación.5
MetaNet (abreviatura de Meta Networks) es un modelo de metaaprendizaje que se puede aplicar en el aprendizaje por imitación y el aprendizaje por refuerzo. Al igual que las MANN, las metaredes también tienen memoria externa.6
MetaNet se compone de un aprendiz base y un metaalumno que trabajan en niveles de espacio separados. El metaalumno adquiere conocimientos generales a través de diferentes tareas dentro de un metaespacio. El alumno base toma una tarea de entrada y envía metainformación sobre el espacio de tareas actual al metaalumno. Basándose en esta información, el metaalumno realiza una parametrización rápida para actualizar las ponderaciones dentro de ambos espacios.6
El deep learning suele requerir múltiples actualizaciones iterativas de los parámetros del modelo a través de la retropropagación y el algoritmo de optimización del descenso del gradiente. En el metaaprendizaje basado en la optimización, a veces llamado metaaprendizaje basado en gradientes, el algoritmo aprende qué parámetros iniciales del modelo o hiperparámetros de las redes neuronales se pueden ajustar de manera eficiente para las tareas relevantes. Esto suele suponer una metaoptimización, es decir, optimizar el propio algoritmo de optimización.
Este método de metaaprendizaje basado en la optimización utiliza la arquitectura popular de la red neuronal recurrente llamada redes de memoria largo-corto plazo (LSTM) para capacitar al metaaprendizaje a adquirir conocimientos a largo plazo compartidos entre las tareas y conocimientos a corto plazo de cada tarea. El metaalumno optimiza entonces otro clasificador de redes neuronales. Aprende a inicializar los parámetros del alumno para una rápida convergencia del entrenamiento y a actualizar esos parámetros de forma eficiente con un conjunto de entrenamiento pequeño, lo que ayuda al alumno a adaptarse rápidamente a las nuevas tareas.7
Como su nombre indica, este algoritmo de metaaprendizaje basado en la optimización es independiente del modelo. Esto hace que sea compatible con cualquier modelo entrenado mediante el descenso de gradientes y es adecuado para resolver varios problemas de aprendizaje, como la clasificación, la regresión y el aprendizaje por refuerzo.8
La idea central detrás del MAML es entrenar los parámetros iniciales del modelo de manera que algunas actualizaciones de gradiente resulten en un aprendizaje rápido en una nueva tarea. El objetivo es determinar los parámetros del modelo que son sensibles a los cambios en una tarea, de modo que cambios menores en esos parámetros conduzcan a mejoras importantes en la función de pérdida de la tarea. La metaoptimización entre tareas se realiza mediante el descenso de gradiente estocástico (SGD).8
A diferencia del descenso de gradiente, que computa derivadas para optimizar los parámetros de un modelo para una tarea determinada, MAML computa segundas derivadas para optimizar los parámetros iniciales de un modelo para la optimización específica de la tarea. Una versión modificada del metaaprendizaje agnóstico de modelos, conocida como MAML de primer orden o FOMAML, omite las segundas derivadas para conseguir un proceso menos costeso desde el punto de vista computacional.8
Reptile es un algoritmo de metaaprendizaje basado en gradientes de primer orden similar a FOMAML. Toma muestras repetidamente de una tarea, entrena en esa tarea a través de muchos escalones de descenso en gradiente y mueve la ponderación del modelo hacia los nuevos parámetros.9
Para demostrar aún más la versatilidad del metaaprendizaje, he aquí algunas formas de utilizarlo dentro del propio ámbito del machine learning:
El machine learning automatizado (AutoML) permite la automatización de tareas en el proceso de machine learning. Las técnicas de metaaprendizaje son adecuadas para AutoML, especialmente cuando se trata de optimización de hiperparámetros y selección de modelos.
El ajuste detallado de los hiperparámetros para los modelos de machine learning suele realizarse manualmente. Los algoritmos de metaaprendizaje pueden ayudar a automatizar este procedimiento aprendiendo a optimizar los hiperparámetros o identificando los hiperparámetros ideales para una tarea determinada.
Los algoritmos de metaaprendizaje también pueden aprender a elegir el modelo más apropiado, e incluso los parámetros y la arquitectura de ese modelo, para resolver una tarea específica. Esto ayuda a automatizar el proceso de selección de modelos.
El aprendizaje few-shot es un marco de machine learning que entrena un modelo de IA en un pequeño número de ejemplos. La mayoría de los métodos de aprendizaje few-shot se basan en el metaaprendizaje, en el que los modelos se adaptan a nuevas tareas dada la escasez de datos de entrenamiento.
Un motor de recomendaciones se basa en algoritmos de machine learning para encontrar patrones en los datos de comportamiento del usuario y recomendar elementos relevantes en función de esos patrones. Los sistemas de metaaprendizaje pueden aprender modelos de recomendación para generar sugerencias más precisas y relevantes que personalicen mejor las experiencias de los usuarios.
El metaaprendizaje puede ayudar a facilitar el aprendizaje por transferencia, que adapta un modelo preentrenado para aprender nuevas tareas o clases de datos nunca antes vistas.
El metaaprendizaje se puede aplicar a diferentes áreas de la industria de la tecnología, algunas de las cuales incluyen:
El metaaprendizaje se puede emplear para tareas de visión artificial, que incluyen el reconocimiento facial, la clasificación de imágenes, la segmentación de imágenes, la detección de objetos y el seguimiento de objetos.
El metaaprendizaje se puede utilizar para tareas de procesamiento del lenguaje natural, como el modelado del lenguaje, la clasificación de sentimientos, el reconocimiento de voz y la clasificación de textos.10
El metaaprendizaje puede ayudar a los robots a aprender rápidamente nuevas tareas y adaptarse a entornos dinámicos. Se puede aplicar en una serie de tareas como el agarre, el desplazamiento, la manipulación y el movimiento.11
El metaaprendizaje tiene mucho potencial. Estas son algunas de sus ventajas:
El metaaprendizaje se puede utilizar para crear modelos de IA más generalizados que puedan aprender a realizar muchas tareas relacionadas. Debido a esta flexibilidad, los sistemas de metaaprendizaje pueden adaptarse rápidamente a nuevas tareas y diferentes dominios.
El metaaprendizaje permite aprender a partir de unas pocas muestras, lo que podría eliminar la necesidad de grandes volúmenes de conjuntos de datos. Esto puede resultar especialmente útil en los dominios en los que recopilar y preparar datos puede requerir mucho trabajo y mucho tiempo.
Debido a su eficiencia de datos y su rápido aprendizaje, el metaaprendizaje puede dar lugar a un proceso de formación más rápido y a reducir los costes de formación.
A pesar de la promesa del metaaprendizaje, también presenta desafíos. Estos son algunos de ellos:
A veces, la cantidad de datos para entrenar modelos de IA es insuficiente, sobre todo para dominios nicho. O, si se dispone de datos, puede que su calidad no sea la adecuada para entrenar eficazmente algoritmos de metaaprendizaje.
No tener suficiente variabilidad entre las tareas en el conjunto de soporte para el metaentrenamiento puede provocar un sobreajuste. Esto significa que un algoritmo de metaaprendizaje solo podría ser aplicable a tareas específicas sin poder generalizarse eficazmente en un amplio espectro de tareas.
Por el contrario, tener demasiada variabilidad entre las tareas en el conjunto de soporte para el metaentrenamiento puede resultar en un infraajuste. Esto significa que un algoritmo de metaaprendizaje podría no ser capaz de usar su conocimiento para resolver otra tarea y podría tener dificultades para adaptarse a nuevos escenarios. Por lo tanto, el equilibrio en la variabilidad de las tareas es clave.
Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.
Ponga la IA a trabajar en su negocio con la experiencia líder en IA del sector de IBM y junto a su cartera de soluciones.
Reinvente las operaciones y flujos de trabajo críticos añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.