Inicio

Topics

aumento de datos

¿Qué es el aumento de datos?
Explore el aumento de datos con watsonx.ai Regístrese para recibir actualizaciones sobre IA
Ilustración isométrica de objetos aumentados

Publicado: 7 de mayo de 2024
Colaboradores: Jacob Murel Ph.D., Eda Kavlakoglu

El aumento de datos utiliza datos preexistentes para crear nuevas muestras de datos que pueden mejorar la optimización y la generalización del modelo.

En su sentido más general, el aumento de datos hace referencia a los métodos para complementar los denominados conjuntos de datos incompletos aportando los datos que faltan con el fin de aumentar la analizabilidad del conjunto de datos.1 Esto se manifiesta en el machine learning al generar copias modificadas de datos preexistentes para aumentar el tamaño y la diversidad de un conjunto de datos. Por lo tanto, con respecto al machine learning, los datos aumentados pueden entenderse como el suministro artificial de datos del mundo real potencialmente ausentes.

El aumento de datos mejora la optimización y generalización del modelo de machine learning. En otras palabras, el aumento de datos puede reducir el sobreajuste y mejorar la solidez del modelo.2 Que conjuntos de datos grandes y diversos equivalgan a un mejor rendimiento del modelo es un axioma del machine learning. Sin embargo, por varias razones, desde cuestiones éticas y de privacidad hasta el simple esfuerzo que requiere mucho tiempo para recopilar manualmente los datos necesarios, obtener suficientes datos puede ser difícil. El aumento de datos proporciona un medio eficaz para aumentar el tamaño y la variabilidad de los conjuntos de datos. De hecho, los investigadores utilizan ampliamente el aumento de datos para corregir conjuntos de datos desequilibrados.3

Muchos marcos de deep learning, como PyTorch, Keras y Tensorflow proporcionan funciones para aumentar los datos, principalmente conjuntos de datos de imágenes. El paquete Python Ablumentations (disponible en Github) también se adopta en muchos proyectos de código abierto. Albumentations permite aumentar los datos de imagen y texto.

Datos aumentados frente a datos sintéticos

Tenga en cuenta que el aumento de datos es distinto de los datos sintéticos. Es cierto que ambos son algoritmos generativos que añaden nuevos datos a una recopilación de datos para mejorar el rendimiento de los modelos de machine learning. Sin embargo, los datos sintéticos se refieren a la generación automática de datos totalmente artificiales. Un ejemplo es el uso de imágenes generadas por ordenador, en lugar de datos del mundo real, para entrenar un modelo de detección de objetos. Por el contrario, el aumento de datos copia los datos existentes y transforma esas copias para aumentar la diversidad y la cantidad de datos en un conjunto determinado.

Por qué el gobierno de la IA es un imperativo para escalar la inteligencia artificial empresarial

Conozca los obstáculos para la adopción de la IA, en particular la falta de soluciones de gestión de riesgos y gobierno de la IA.

Contenido relacionado Regístrese para recibir la guía sobre modelos fundacionales
Técnicas de aumento de datos

Hay una variedad de métodos de aumento de datos. Las técnicas específicas utilizadas para aumentar los datos dependen de la naturaleza de los datos con los que trabaja un usuario. Tenga en cuenta que el aumento de datos se suele implementar durante el preprocesamiento en el conjunto de datos de entrenamiento. Algunos estudios investigan el efecto del aumento en el conjunto de validación o prueba, pero las aplicaciones de aumento fuera de los conjuntos de entrenamiento son más raras.4

Aumento de imagen

El aumento de datos se ha aplicado mucho en la investigación para una serie de tareas de visión artificial, desde la clasificación de imágenes hasta la detección de objetos. Como tal, hay una gran cantidad de investigaciones sobre cómo las imágenes aumentadas mejoran el rendimiento de las redes neuronales (CNN) de última generación en el procesamiento de imágenes.

Muchos tutoriales y recursos no académicos clasifican el aumento de datos de imagen en dos categorías: transformaciones geométricas y transformaciones fotométricas (o, espacio de color). Ambos consisten en una manipulación de archivos de imagen relativamente sencilla. La primera categoría denota técnicas que alteran el espacio y el diseño de la imagen original, como el cambio de tamaño, el zoom o los cambios de orientación (por ejemplo, el giro horizontal). Las transformaciones fotométricas alteran los canales RGB (rojo-verde-azul) de una imagen. Algunos ejemplos de transformación fotométrica son el ajuste de saturación y la escala de grises de una imagen.5

Algunas fuentes categorizan la inyección de ruido con transformaciones geométricas,6 mientras que otras la clasifican con transformaciones fotométricas.7 La inyección de ruido inserta píxeles aleatorios negros, blancos o de color en una imagen de acuerdo con una distribución gaussiana.

Como ilustra la inyección de ruido, la clasificación binaria de las técnicas de aumento de imágenes en geométricas y fotométricas no cubre toda la gama de posibles estrategias de aumento. Las técnicas de aumento de imágenes excluidas son el filtrado kernel (nitidez o desenfoque de una imagen) y la mezcla de imágenes. Un ejemplo de esto último son los recortes y parches aleatorios. Esta técnica muestrea aleatoriamente secciones de varias imágenes para crear una nueva imagen. Esta nueva imagen es una composición hecha a partir de las secciones muestreadas de las imágenes de entrada. Una técnica relacionada es el borrado aleatorio, que elimina una parte aleatoria de una imagen.8 Estas tareas son útiles en las tareas de reconocimiento de imágenes, ya que los casos de uso del mundo real pueden requerir que las máquinas identifiquen objetos parcialmente oscurecidos.

El aumento a nivel de instancia es otro aumento. El aumento a nivel de instancia copia esencialmente las regiones etiquetadas (por ejemplo, los cuadros delimitadores) de una imagen y las inserta en otra imagen. Este enfoque entrena la imagen para identificar objetos en diferentes fondos, así como objetos oscurecidos por otros objetos. El aumento a nivel de instancia es un enfoque particularmente destacado para tareas de reconocimiento específicas de la región, como la detección de objetos y las tareas de segmentación de imágenes.9

Aumento de texto

 

Al igual que el aumento de imágenes, el aumento de datos de texto consta de muchas técnicas y métodos que se utilizan en toda una serie de tareas de procesamiento del lenguaje natural (PLN). Algunos recursos dividen el aumento de texto en métodos basados en reglas (o "fáciles") y métodos neuronales. Por supuesto, al igual que ocurre con la división binaria de las técnicas de aumento de la imagen, esta categorización no lo abarca todo.

Los enfoques basados en reglas incluyen técnicas de búsqueda y sustitución relativamente sencillas, como la eliminación o inserción aleatorias. Los enfoques basados en reglas también incluyen la sustitución de sinónimos. En esta estrategia, una o varias palabras de una cadena se sustituyen por sus respectivos sinónimos registrados en tesauros predefinidos, como WordNet o la base de datos de paráfrasis. La inversión de oraciones y la pasivación, en las que se intercambian el objeto y el sujeto, también son ejemplos de enfoques basados en reglas. 10

Según su clasificación, los métodos neuronales utilizan redes neuronales para generar nuevas muestras de texto a partir de los datos de entrada. Un método neuronal notable es la retrotraducción. Utiliza la traducción automática para traducir los datos de entrada a un idioma de destino y luego de nuevo al idioma de entrada original. De este modo, la retrotraducción aprovecha las variaciones lingüísticas que dan lugar a traducciones automatizadas para generar variaciones semánticas en un conjunto de datos de un solo idioma con fines de aumento. Las investigaciones sugieren que esto es eficaz para mejorar el rendimiento del modelo de traducción automática.11

Otra estrategia son los aumentos de texto mixtos. Este enfoque implementa métodos de eliminación e inserción basados en reglas mediante incrustaciones de Neural Networks. En concreto, los transformadores preentrenados (por ejemplo, BERT) generan incrustaciones de texto a nivel de palabras o frases, transformando el texto en puntos vectoriales, como en un modelo de bolsa de palabras. La transformación del texto en puntos vectoriales generalmente tiene como objetivo captar la similitud lingüística, es decir, se cree que las palabras u oraciones más cercanas entre sí en el espacio vectorial comparten significados o frecuencias similares. Los aumentos mixtos interpolan cadenas de texto que se encuentran a una distancia determinada entre sí para producir nuevos datos que son un agregado de los datos de entrada.12

Investigación reciente

Muchos usuarios tienen dificultades para identificar qué estrategias de aumento de datos deben aplicar. ¿Varía la eficacia de las técnicas de aumento de datos según los conjuntos de datos y las tareas? La investigación comparativa sobre técnicas de aumento de datos sugiere que múltiples formas de aumento tienen un mayor impacto positivo que una sola, pero determinar la combinación óptima de técnicas depende del conjunto de datos y de la tarea.13 Pero, ¿cómo se seleccionan las técnicas óptimas?

Aumento automatizado

Para abordar este problema, la investigación ha recurrido al aumento automatizado de datos. Un enfoque de aumento automatizado utiliza el aprendizaje por refuerzo para identificar las técnicas de aumento que devuelven la mayor precisión de validación en un conjunto de datos determinado.14 Este enfoque ha demostrado implementar estrategias que mejoran el rendimiento tanto en datos de muestra como fuera de ella.15 Otro enfoque prometedor para el aumento automatizado identifica y aumenta los falsos positivos de las salidas del clasificador. De este modo, el aumento automático identifica las mejores estrategias para corregir los elementos clasificados erróneamente con frecuencia.16

Redes generativas

Desde hace poco, la investigación ha recurrido a redes y modelos generativos para identificar estrategias óptimas de aumento dependientes de la tarea17 y de la clase18. Esto incluye trabajar con redes generativas de confrontación (GAN). Las GAN son redes de deep learning que normalmente se utilizan para generar datos sintéticos, e investigaciones recientes investigan su uso para aumentar datos. Algunos experimentos, por ejemplo, sugieren que los aumentos de datos sintéticos de los conjuntos de imágenes médicas mejoran el rendimiento de los modelos de clasificación19 y segmentación20 más que los aumentos clásicos. En relación con esto, la investigación sobre el aumento de textos aprovecha los modelos de lenguaje de gran tamaño (LLM) y los chatbots para generar datos aumentados. Estos experimentos utilizan LLM para generar muestras aumentadas de datos de entrada con técnicas de confusión y sinonimización, lo que demuestra un mayor impacto positivo en los modelos de clasificación de textos que en el aumento clásico.21

Los investigadores y desarrolladores adoptan ampliamente las técnicas de aumento de datos cuando entrenan modelos para diversas tareas de machine learning. Por el contrario, los datos sintéticos son un área de investigación comparativamente más nueva. Los experimentos comparativos entre datos sintéticos y reales muestran resultados mixtos, ya que los modelos entrenados íntegramente con datos sintéticos a veces superan a los modelos entrenados con datos del mundo real. Tal vez como era de esperar, esta investigación sugiere que los datos sintéticos son más útiles cuando reflejan las características de los datos del mundo real.22

Recursos relacionados ¿Qué son los datos sintéticos?

Creados artificialmente mediante simulación informática o generados por algoritmos, los datos sintéticos pueden utilizarse como alternativa o complemento a los datos del mundo real cuando éstos no están fácilmente disponibles; también pueden ayudar en experimentos de ciencia de datos.

Cinco formas en que IBM utiliza datos sintéticos para mejorar los modelos de IA

Los datos sintéticos son información generada en un ordenador para aumentar o reemplazar datos reales para probar y entrenar modelos de IA.

Aumento del almacén de datos, parte 1

Combine las tecnologías tradicionales y de big data para maximizar y aumentar la eficacia de los almacenes de datos existentes.

Dé el siguiente paso

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para constructores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai Solicite una demostración en directo
Notas a pie de página

f Martin Tanner y Wing Hung Wong. “The Calculation of Posterior Distributions by Data Augmentation”. Journal of the American Statistical Association. Vol. 82. N.º 398 (1987). Págs. 528-540.

2 Sylvestre-Alvise Rebuffi, Sven Gowal, Dan Andrei Calian, Florian Stimberg, Olivia Wiles y Timothy A Mann. “Data Augmentation Can Improve Robustness”. Advances in Neural Information Processing Systems. Vol. 34. 2021. https://proceedings.neurips.cc/paper_files/paper/2021/hash/fb4c48608ce8825b558ccf07169a3421-Abstract.html.

3 Manisha Saini y Seba Susan. “Tackling class imbalance in computer vision: A contemporary review”. Artificial Intelligence Review. Vol. 54. 2023. https://link.springer.com/article/10.1007/s10462-023-10557-6.

4 Fabio Perez, Cristina Vasconcelos, Sandra Avila y Eduardo Valle. “Data Augmentation for Skin Lesion Analysis”. OR 2.0 Context-Aware Operating Theaters. Computer Assisted Robotic Endoscopy. Clinical Image-Based Procedures, and Skin Image Analysis. 2018. https://link.springer.com/chapter/10.1007/978-3-030-01201-4_33.

5 Connor Shorten y Taghi M. Khoshgoftaa. “A survey on Image Data Augmentation for Deep Learning”. Journal of Big Data. 2019. https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0.

6 Duc Haba. Data Augmentation with Python. Packt Publishing. 2023.

7 Mingle Xu, Sook Yoon, Álvaro Fuentes y Dong Sun Park. “A Comprehensive Survey of Image Augmentation Techniques for Deep Learning”. Patter Recognition. Vol. 137. https://www.sciencedirect.com/science/article/pii/S0031320323000481.

8 Connor Shorten y Taghi M. Khoshgoftaa. “A survey on Image Data Augmentation for Deep Learning”. Journal of Big Data. 2019. https://journalofbigdata.springeropen.com/articles/10.1186/s40537-019-0197-0. Terrance DeVries y Graham W. Taylor. “Improved Regularization of Convolutional Neural Networks with Cutout”. 2017. https://arxiv.org/abs/1708.04552.

9 Zhiqiang Shen, Mingyang Huang, Jianping Shi, Xiangyang Xue y Thomas S. Huang. “Towards Instance-Level Image-To-Image Translation”. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. Págs. 3683-3692. https://openaccess.thecvf.com/content_CVPR_2019/html/Shen_Towards_Instance-Level_Image-To-Image_Translation_CVPR_2019_paper.html. Golnaz Ghiasi, Yin Cui, Aravind Srinivas, Rui Qian, Tsung-Yi Lin, Ekin D. Cubuk, Quoc V. Le y Barret Zoph. “Simple Copy-Paste Is a Strong Data Augmentation Method for Instance Segmentation”. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2021. Págs. 2918-2928. https://openaccess.thecvf.com/content/CVPR2021/html/Ghiasi_Simple_Copy-Paste_Is_a_Strong_Data_Augmentation_Method_for_Instance_CVPR_2021_paper.html.

10 Connor Shorten, Taghi M. Khoshgoftaar y Borko Furht. “Text Data Augmentation for Deep Learning”. Journal of Big Data. 2021. https://journalofbigdata.springeropen.com/articles/10.1186/s40537-021-00492-0. Junghyun Min, R. Thomas McCoy, Dipanjan Das, Emily Pitler y Tal Linzen. “Syntactic Data Augmentation Increases Robustness to Inference Heuristics”. Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics. 2020. Págs. 2339-2352. https://aclanthology.org/2020.acl-main.212/.

11 Connor Shorten, Taghi M. Khoshgoftaar y Borko Furht. “Text Data Augmentation for Deep Learning”. Journal of Big Data. 2021. https://journalofbigdata.springeropen.com/articles/10.1186/s40537-021-00492-0. Rico Sennrich, Barry Haddow y Alexandra Birch. “Improving Neural Machine Translation Models with Monolingual Data”. Proceedings of the 54th Annual Meeting of the Association for Computational Linguistics. 2016. Págs. 86-96. https://aclanthology.org/P16-1009/.

12 Connor Shorten, Taghi M. Khoshgoftaar y Borko Furht. “Text Data Augmentation for Deep Learning”. Journal of Big Data. 2021. https://journalofbigdata.springeropen.com/articles/10.1186/s40537-021-00492-0. Lichao Sun, Congying Xia, Wenpeng Yin, Tingting Liang, Philip Yu y Lifang He. “Mixup-Transformer: Dynamic Data Augmentation for NLP Tasks”. Proceedings of the 28th International Conference on Computational Linguistics. 2020. https://aclanthology.org/2020.coling-main.305/. Hongyu Guo, Yongyi Mao y Richong Zhang. “Augmenting Data with Mixup for Sentence Classification: An Empirical Study”. 2019. https://arxiv.org/abs/1905.08941.

13 Suorong Yang, Weikang Xiao, Mengchen Zhang, Suhan Guo, Jian Zhao y Furao Shen. “Image Data Augmentation for Deep Learning: A Survey”. 2023. https://arxiv.org/pdf/2204.08610.pdf. Alhassan Mumuni y Fuseini Mumuni. “Data augmentation: A comprehensive survey of modern approaches”. Array. Vol. 16. 2022. https://www.sciencedirect.com/science/article/pii/S2590005622000911. Evgin Goveri. “Medical image data augmentation: techniques, comparisons and interpretations”. Artificial Intelligence Review. Vol. 56. 2023. Págs. 12561-12605. https://link.springer.com/article/10.1007/s10462-023-10453-z.

14 Ekin D. Cubuk, Barret Zoph, Dandelion Mane, Vijay Vasudevan y Quoc V. Le. “AutoAugment: Learning Augmentation Strategies From Data”. Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019. Págs. 113-123. https://openaccess.thecvf.com/content_CVPR_2019/papers/Cubuk_AutoAugment_Learning_Augmentation_Strategies_From_Data_CVPR_2019_paper.pdf.  

15 Barret Zoph, Ekin D. Cubuk, Golnaz Ghiasi, Tsung-Yi Lin, Jonathon Shlens y Quoc V. Le. “Learning Data Augmentation Strategies for Object Detection”. Proceedings of the 16th European Conference on Computer Vision. 2020. https://link.springer.com/chapter/10.1007/978-3-030-58583-9_34.

16 Sandareka Wickramanayake, Wynne Hsu y Mong Li Lee. “Explanation-based Data Augmentation for Image Classification”. Advances in Neural Information Processing Systems. Vol. 34. 2021. https://proceedings.neurips.cc/paper_files/paper/2021/hash/af3b6a54e9e9338abc54258e3406e485-Abstract.html.

17 rishna Chaitanya, Neerav Karani, Christian F. Baumgartner, Anton Becker, Olivio Donati y Ender Konukoglu. “Semi-supervised and Task-Driven Data Augmentation”. Proceedings of the 26th International Conference on Information Processing in Medical Imaging. 2019. https://link.springer.com/chapter/10.1007/978-3-030-20351-1_3.

18 Cédric Rommel, Thomas Moreau, Joseph Paillard y Alexandre Gramfort. “ADDA: Class-wise Automatic Differentiable Data Augmentation for EEG Signals”. International Conference on Learning Representations. 2022. https://iclr.cc/virtual/2022/poster/7154.

19 Maayan Frid-Adar, Idit Diamant, Eyal Klang, Michal Amitai, Jacob Goldberger y Hayit Greenspan. “GAN-based synthetic medical image augmentation for increased CNN performance in liver lesion classification”. Neurocomputing. 2018. Págs. 321-331. https://www.sciencedirect.com/science/article/abs/pii/S0925231218310749.

20 Veit Sandfort, Ke Yan, Perry Pickhardt y Ronald Summers. “Data augmentation using generative adversarial networks (CycleGAN) to improve generalizability in CT segmentation tasks”. Scientific Reports. 2019. https://www.nature.com/articles/s41598-019-52737-x.

21 Kang Min Yoo, Dongju Park, Jaewook Kang, Sang-Woo Lee y Woomyoung Park. “GPT3Mix: Leveraging Large-scale Language Models for Text Augmentation”. Findings of the Association for Computational Linguistics: EMNLP 2021. Págs. 2225-2239. https://aclanthology.org/2021.findings-emnlp.192/. Haixing Dai, Zhengliang Liu, Wenxiong Liao, Xiaoke Huang, Yihan Cao, Zihao Wu, Lin Zhao, Shaochen Xu, Wei Liu, Ninghao Liu, Sheng Li, Dajiang Zhu, Hongmin Cai, Lichao Sun, Quanzheng Li, Dinggang Shen, Tianming Liu y Xiang Li. “AugGPT: Leveraging ChatGPT for Text Data Augmentation”. 2023. https://arxiv.org/abs/2302.13007.

22 Bram Vanherle, Steven Moonen, Frank Van Reeth y Nick Michiels. “Analysis of Training Object Detection Models with Synthetic Data”. 33rd British Machine Vision Conference. 2022. https://bmvc2022.mpi-inf.mpg.de/0833.pdf. Martin Georg Ljungqvist, Otto Nordander, Markus Skans, Arvid Mildner, Tony Liu y Pierre Nugues. “Object Detector Differences When Using Synthetic and Real Training Data”. SN Computer Science. Vol. 4. 2023. https://link.springer.com/article/10.1007/s42979-023-01704-5. Lei Kang, Marcal Rusinol, Alicia Fornes, Pau Riba y Mauricio Villegas. “Unsupervised Writer Adaptation for Synthetic-to-Real Handwritten Word Recognition”. Proceedings of the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV). 2020. Págs. 3502-3511. https://openaccess.thecvf.com/content_WACV_2020/html/Kang_Unsupervised_Writer_Adaptation_for_Synthetic-to-Real_Handwritten_Word_Recognition_WACV_2020_paper.html.