Publicado: 12 de febrero de 2024
Colaboradores: Jacob Murel Ph.D., Eda Kavlakoglu
El aprendizaje por transferencia utiliza modelos preentrenados de una tarea o conjunto de datos de machine learning para mejorar el rendimiento y la generalizabilidad en una tarea o conjunto de datos relacionados.
El aprendizaje por transferencia es una técnica de machine learning en la que el conocimiento adquirido a través de una tarea o conjunto de datos se utiliza para mejorar el rendimiento del modelo en otra tarea relacionada o conjunto de datos diferente.1 En otras palabras, el aprendizaje por transferencia utiliza lo aprendido en un entorno para mejorar la generalización en otro entorno.2 El aprendizaje por transferencia tiene muchas aplicaciones, desde resolver problemas de regresión en ciencia de datos hasta entrenar modelos de deep learning. De hecho, resulta especialmente atractivo para estos últimos dada la gran cantidad de datos necesarios para crear redes neuronales profundas.
Los procesos de aprendizaje tradicionales construyen un nuevo modelo para cada nueva tarea, basado en los datos etiquetados disponibles. Esto se debe a que los algoritmos tradicionales de machine learning asumen que los datos de entrenamiento y de prueba proceden del mismo espacio de características, por lo que si la distribución de datos cambia, o el modelo entrenado se aplica a un nuevo conjunto de datos, los usuarios deben volver a entrenar un nuevo modelo desde cero, incluso si se intenta una tarea similar a la del primer modelo (por ejemplo. clasificador de análisis de sentimiento de reseñas de películas frente a reseñas de canciones). Sin embargo, los algoritmos de aprendizaje por transferencia toman como punto de partida modelos o redes ya entrenados. Después aplica los conocimientos del modelo adquiridos en una tarea o datos de origen inicial (p. ej. clasificar las reseñas de películas) en función de una tarea o datos objetivo nuevos, aunque relacionados (p. ej. clasificar reseñas de canciones).3
Explore IBM watsonx y aprenda a crear modelos de machine learning utilizando conjuntos de datos estadísticos.
Suscríbase al boletín de IBM
- Costes computacionales. El aprendizaje por transferencia reduce los costes computacionales necesarios para construir modelos para nuevos problemas. Al reutilizar modelos previamente entrenados o redes preentrenadas para abordar una tarea diferente, los usuarios pueden reducir la cantidad de tiempo de entrenamiento del modelo, los datos de entrenamiento, las unidades de procesador y otros recursos informáticos. Por ejemplo, puede ser necesario un menor número de épocas, es decir, de pasadas por un conjunto de datos, para alcanzar la tasa de aprendizaje deseada. De esta manera, el aprendizaje por transferencia puede acelerar y simplificar los procesos de formación de modelos.
- Tamaño del conjunto de datos. En particular, el aprendizaje por transferencia ayuda a aliviar las dificultades que entraña la adquisición de grandes conjuntos de datos. Por ejemplo, los modelos de lenguaje de gran tamaño (LLM) requieren grandes cantidades de datos de entrenamiento para obtener un rendimiento óptimo. Los conjuntos de datos de calidad disponibles públicamente pueden ser limitados, y producir suficientes datos etiquetados manualmente puede llevar mucho tiempo y resultar caro.
- Generalización. Aunque la transferencia de aprendizaje ayuda a la optimización del modelo, puede aumentar aún más la generalización de un modelo. Dado que el aprendizaje por transferencia implica volver a entrenar un modelo existente con un nuevo conjunto de datos, el modelo reentrenado constará de conocimientos obtenidos de varios conjuntos de datos. Este modelo mostrará potencialmente un mejor rendimiento en una mayor variedad de datos que el modelo base inicial entrenado en un solo tipo de conjunto de datos. De esta manera, el aprendizaje por transferencia puede inhibir el sobreajuste.4
Por supuesto, la transferencia de conocimientos de un dominio a otro no puede compensar el impacto negativo de los datos de mala calidad. Las técnicas de preprocesamiento y la ingeniería de características, como el aumento de datos y la extracción de características, siguen siendo necesarias cuando se utiliza el aprendizaje por transferencia.
No se trata tanto de que haya desventajas inherentes al aprendizaje por transferencia como de que existan posibles consecuencias negativas derivadas de su aplicación incorrecta. El aprendizaje por transferencia funciona mejor cuando se cumplen tres condiciones:
Cuando no se cumplen estas condiciones, el aprendizaje por transferencia puede afectar negativamente al rendimiento del modelo. En la literatura se habla de transferencia negativa. La investigación en curso propone una variedad de pruebas para determinar si los conjuntos de datos y las tareas cumplen con las condiciones anteriores y, por lo tanto, no resultarán en una transferencia negativa.5 La transferencia a distancia es un método desarrollado para corregir la transferencia negativa que resulta de una disimilitud demasiado grande en las distribuciones de datos de los conjuntos de datos de origen y destino.6
Tenga en cuenta que no existe una métrica estándar generalizada para determinar la similitud entre las tareas para el aprendizaje por transferencia. Sin embargo, algunos estudios proponen diferentes métodos de evaluación para predecir las similitudes entre los conjuntos de datos y las tareas de machine learning, por lo que la viabilidad del aprendizaje por transferencia es limitada.7
Hay tres prácticas o subentornos adyacentes del aprendizaje por transferencia. Su distinción entre sí, así como el aprendizaje de transferencia en general, se deben en gran medida a cambios en la relación entre el dominio de origen, el dominio de destino y las tareas que completar.8
- Transferencia inductiva. Esto es cuando las tareas de origen y destino son diferentes, independientemente de cualquier diferencia o similitud entre los dominios de destino y de origen (es decir, conjuntos de datos). Esto puede manifestarse en modelos de visión por ordenador cuando las arquitecturas preentrenadas para la extracción de entidades en conjuntos de datos grandes se adoptan para una formación adicional sobre una tarea específica, como la detección de objetos. El aprendizaje multitarea, que consiste en aprender simultáneamente dos tareas diferentes (como la clasificación de imágenes y la detección de objetos) en el mismo conjunto de datos, se puede considerar una forma de transferencia inductiva.9
- Aprendizaje no supervisado. Esto es similar a la transferencia inductiva, ya que las tareas de destino y de origen son diferentes. Pero en la transferencia inductiva, los datos de origen y/o destino a menudo se etiquetan. Como indica su nombre, el aprendizaje por transferencia no supervisado no es supervisado, lo que significa que no hay datos etiquetados manualmente.10 En comparación, la transferencia inductiva puede considerarse aprendizaje supervisado. Una aplicación común del aprendizaje no supervisado es la detección de fraudes. Al identificar patrones comunes en un conjunto de datos de transacciones sin etiquetar, un modelo puede aprender a identificar comportamientos desviados como posibles fraudes.
- Transferencia transductiva. Esto ocurre cuando las tareas de origen y destino son las mismas, pero los conjuntos de datos (o dominios) son diferentes. Más concretamente, los datos de origen suelen estar etiquetados, mientras que los datos de destino no lo están. La adaptación al dominio es una forma de aprendizaje transductivo, ya que aplica los conocimientos adquiridos al realizar una tarea en una distribución de datos hacia la misma tarea en otra distribución de datos.11 Un ejemplo de aprendizaje por transferencia transductiva es la aplicación de un modelo de clasificación de textos entrenado y probado con reseñas de restaurantes para clasificar reseñas de películas.
El aprendizaje por transferencia es distinto del ajuste fino. Es cierto que ambos reutilizan modelos de machine learning preexistentes en lugar de entrenar nuevos modelos. Pero las similitudes terminan en gran medida ahí. El ajuste fino se refiere al proceso de entrenamiento adicional de un modelo en un conjunto de datos de una tarea específica para mejorar el rendimiento en la tarea inicial específica para la que se construyó el modelo. Por ejemplo, se puede crear un modelo de detección de objetos de propósito general utilizando conjuntos de imágenes masivos como COCO o ImageNet y, a continuación, entrenar el modelo resultante en un conjunto de datos más pequeño y etiquetado específico para la detección de coches. De esta manera, un usuario ajusta un modelo de detección de objetos para la detección de automóviles. Por el contrario, el aprendizaje por transferencia significa que los usuarios adaptan un modelo a un nuevo problema relacionado y no al mismo problema.
Hay muchas aplicaciones de aprendizaje de transferencia en entornos reales de machine learning e inteligencia artificial. Los desarrolladores y los científicos de datos pueden utilizar el aprendizaje por transferencia para ayudar en una gran cantidad de tareas y combinarlo con otros enfoques de aprendizaje, como el aprendizaje por refuerzo.
Un problema destacado que afecta al aprendizaje por transferencia en PLN es la falta de coincidencia de características. Los rasgos de distintos ámbitos pueden tener significados y, por tanto, connotaciones diferentes (p.ej. luz significa peso y óptica). Esta disparidad en las representaciones de características afecta a las tareas de clasificación de sentimientos, los modelos de lenguaje, etc. Los modelos basados en el aprendizaje profundo, en particular, la incrustación de palabras, resultan prometedores para corregir esta situación, ya que pueden captar adecuadamente las relaciones semánticas y las orientaciones para las tareas de adaptación de dominios.12
Dada las dificultades para adquirir suficientes datos etiquetados manualmente para diversas tareas de visión artificial, una gran cantidad de investigaciones examinan las aplicaciones del aprendizaje por transferencia con redes neuronales convolucionales (CNN). Un ejemplo destacado es ResNet, una arquitectura de modelos preentrenados que mejora el rendimiento en tareas de clasificación de imágenes y detección de objetos.13 Investigaciones recientes estudian el renombrado conjunto de datos ImageNet para el aprendizaje por transferencia, argumentando que (en contra de la sabiduría popular de la visión por ordenador) solo se necesitan pequeños subconjuntos de este conjunto de datos para entrenar modelos generalizables confiables.14 Muchos tutoriales de aprendizaje por transferencia para la visión artificial utilizan tanto ResNet como ImageNet con la biblioteca keras de TensorFlow.
Los investigadores de IBM debaten cómo CodeFlare reduce el tiempo de entrenamiento de las tareas de TL para los modelos básicos.
Los investigadores de IBM presentan un algoritmo TL equivariante que promedia las ponderaciones de las funciones para mayor sencillez y generalidad.
Investigadores de IBM proponen el método TL para mejorar las predicciones de modelos de reacciones moleculares de carbohidratos.
1 Emilio Soria Olivas, Jose David Martin Guerrero, Marcelino Martinez Sober, Jose Rafael Magdalena Benedito, Antonio Jose Serrano Lopez, Handbook of Research on Machine Learning Applications and Trends: Algorithms, Methods, and Techniques. Information Science Reference. 2009.
2 Ian Goodfellow, Yoshua Bengio y Aaron Courville. Deep Learning. MIT Press. 2016.
3 Jiawei Han, Micheline Kamber, Jian Pei. Data Mining: Concepts and Techniques. 3ª edición. Elsevier. 2012.
4 Jindong Wang y Yiqiang Chen, Introduction to Transfer Learning: Applications and Methods. Springer. 2023.
5 Wen Zhang, Lingfei Deng, Lei Zhang, Dongrui Wu, "A Survey on Negative Transfer". IEEE/CAA Journal of Automatica Sinica. vol. 10. n.º 2. 2023. pp. 305-329. https://arxiv.org/abs/2009.00909 (enlace externo a ibm.com).
6 Ben Tan, Yangqiu Song, Erheng Zhong, Qiang Yang, "Transitive Transfer Learning". Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining. 2015. pp. 1155-1164. https://dl.acm.org/doi/10.1145/2783258.2783295 (enlace externo a ibm.com). Ben Tan, Yu Zhang, Sinno Jialin Pan, Qiang Yang, "Domain Distant Transfer". Proceedings of the Thirty-First AAAI Conference on Artificial Intelligence. 2017. pp. 2604-2610. https://dl.acm.org/doi/10.5555/3298483.3298614 (enlace externo a ibm.com).
7 Changjian Shui, Mahdieh Abbasi, Louis-Émile Robitaille1, Boyu Wang, Christian Gagné, "A Principled Approach for Learning Task Similarity in Multitask Learning". Proceedings of the Twenty-Eighth International Joint Conference on Artificial Intelligence. 2019. pp.3446-3452. https://www.ijcai.org/proceedings/2019/0478.pdf (enlace externo a ibm.com). Kshitij Dwivedi y Gemma Roig, "Representation Similarity Analysis
for Efficient Task taxonomy & Transfer Learning". Proceedings of Conference on Computer Vision and Pattern Recognition. 2019. pp.12387-12396. https://openaccess.thecvf.com/content_CVPR_2019/papers/Dwivedi_Representation_Similarity_Analysis_for_Efficient_Task_Taxonomy__Transfer_Learning_CVPR_2019_paper.pdf (enlace externo a ibm.com). Javier García, Álvaro Visús y Fernando Fernández, "A taxonomy for similarity metrics between Markov decision processes". Machine Learning. vol. 111. 2022. pp. 4217–4247. https://link.springer.com/article/10.1007/s10994-022-06242-4 (enlace externo a ibm.com).
8 Asmaul Hosna, Ethel Merry, Jigmey Gyalmo, Zulfikar Alom, Zeyar Aung, and Mohammad Abdul Azim, “Transfer learning: a friendly introduction” Journal of Big Data. vol. 9. 2022 https://journalofbigdata.springeropen.com/articles/10.1186/s40537-022-00652-w (enlace externo a ibm.com). Sinno Jialin Pan y Qiang Yang, "A Survey on Transfer Learning". IEEE Transactions on Knowledge and Data Engineering. vol. 22, n.º 10, 2010, pp. 1345-1359. https://ieeexplore.ieee.org/document/5288526 (enlace externo a ibm.com).
9 Sinno Jialin Pan y Qiang Yang, "A Survey on Transfer Learning". IEEE Transactions on Knowledge and Data Engineering. vol. 22, n.º 10, 2010, pp. 1345-1359. https://ieeexplore.ieee.org/document/5288526 (enlace externo a ibm.com). Ricardo Vilalta, "Inductive Transfer". Encyclopedia of Machine Learning and Data Mining. Springer. 2017.
10 Sinno Jialin Pan y Qiang Yang, "A Survey on Transfer Learning". IEEE Transactions on Knowledge and Data Engineering. vol. 22, n.º 10, 2010, pp. 1345-1359. https://ieeexplore.ieee.org/document/5288526 (enlace externo a ibm.com).
11 Sinno Jialin Pan and Qiang Yang, "A Survey on Transfer Learning". IEEE Transactions on Knowledge and Data Engineering. vol. 22, n.º 10, 2010, pp. 1345-1359. https://ieeexplore.ieee.org/document/5288526 (enlace externo a ibm.com).
Ian Goodfellow, Yoshua Bengio y Aaron Courville. Deep Learning. MIT Press. 2016.
12 Qiang Yang. Transfer Learning. Cambridge University Press. 2020. Eyal Ben-David, Carmel Rabinovitz y Roi Reichart, "PERL: Pivot-based Domain Adaptation for Pre-trained Deep Contextualized Embedding Models". Transactions of the Association for Computational Linguistics,. vol. 8. 2020. pp. 504–521. https://aclanthology.org/2020.tacl-1.33.pdf (enlace reside fuera de ibm.com).
13 Kaiming He, Xiangyu Zhang, Shaoqing Ren y Jian Sun, "Deep Residual Learning for Image Recognition". IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2016. pp. 770-778. https://ieeexplore.ieee.org/document/7780459 (enlace externo a ibm.com).
14 Minyoung Huh, Pulkit Agrawal y Alexei Efros, "What makes ImageNet good for transfer learning?" Berkeley Artificial Intelligence Research Laboratory (BAIR). 2017. https://people.csail.mit.edu/minhuh/papers/analysis/ (enlace externo a ibm.com).