¿Qué es la reducción de datos?

Publicado:18 de enero de 2024
Colaboradores: Phill Powell, Ian Smalley

La reducción de datos es el proceso por el que una organización se propone limitar la cantidad de datos que almacena.

Las técnicas de reducción de datos tratan de disminuir la redundancia del conjunto de datos original, de modo que grandes cantidades de datos de origen puedan almacenarse de forma más eficiente como datos reducidos.

En primer lugar, cabe destacar que el término "reducción de datos" no equivale automáticamente a una pérdida de información. En muchos casos, la reducción de datos solo significa que ahora los datos se almacenan de forma más inteligente, tal vez tras pasar por un proceso de optimización y luego volverse a ensamblar con datos relacionados en una configuración más práctica.

La reducción de datos tampoco es lo mismo que la deduplicación de datos, en la que se purgan copias adicionales de los mismos datos con fines de racionalización. Más precisamente, la reducción de datos combina varios aspectos de diferentes actividades, como la deduplicación de datos y la consolidación de datos, para lograr sus objetivos.

Por qué la gobernanza de la IA es un imperativo empresarial para escalar la IA empresarial

Conozca los obstáculos para la adopción de la IA, en particular la falta de soluciones de gobernanza y gestión de riesgos.

Contenido relacionado

Regístrese para obtener la guía sobre modelos fundacionales

Una visión más completa de los datos

Cuando se hace referencia a los datos en el contexto de la reducción de datos, a menudo hablamos de datos en singular, en lugar de en plural. Un aspecto de la reducción de datos, por ejemplo, tiene que ver con la definición de las dimensiones físicas reales de los puntos de datos individuales.

Hay una cantidad considerable de ciencia de datos implicada en las actividades de reducción de datos. El material puede ser bastante complejo y difícil de resumir de forma concisa, y este dilema dio lugar a su propio término: interpretabilidad, es decir, la capacidad de un ser humano de inteligencia media para entender un determinado modelo de aprendizaje automático.

Comprender los significados de algunos de estos términos puede ser un desafío porque se trata de datos vistos desde una perspectiva casi microscópica. Por lo general, hablamos de datos en su forma "macro", pero en la reducción de datos, a menudo hablamos de datos en su sentido más "micro". Más exactamente, la mayoría de las discusiones sobre este tema requerirán que se hable tanto a nivel macro como en el extremo micro de la escala.

Beneficios de la reducción de datos

Cuando una organización reduce su volumen de datos, suele obtener importantes ahorros económicos gracias reducción de los costos de almacenamiento asociados al menor consumo de espacio para almacenar.

Los métodos de reducción de datos también ofrecen otros beneficios, como el aumento de la eficiencia de los datos. Una vez lograda la reducción de datos, los métodos de inteligencia artificial (IA) pueden usar los datos resultantes más fácilmente de diversas maneras, incluidas las aplicaciones de analytics de datos sofisticadas que pueden agilizar enormemente las tareas de toma de decisiones.

Por ejemplo, cuando la virtualización de almacenamiento se emplea con éxito, ayuda a la coordinación entre los entornos de servidor y escritorio, mejorando su eficiencia general y haciéndolos más fiables.

Las actividades de reducción de datos desempeñan un papel clave en las actividades de minería de datos. Los datos deben estar lo más limpios y preparados posible antes de extraerlos y usarlos para el análisis de datos.

Tipos de reducción de datos

Los siguientes son algunos de los métodos que las organizaciones pueden emplear para lograr la reducción de datos.

Reducción de dimensionalidad

La noción de dimensionalidad de los datos sustenta todo este concepto. La dimensionalidad se refiere al número de atributos (o características) asignados a un único conjunto de datos. Sin embargo, hay una contrapartida: cuanto mayor sea la dimensionalidad, mayor será el almacenamiento de datos necesario para ese conjunto de datos. Además, cuanto mayor es la dimensionalidad, más a menudo los datos tienden a ser escasos, lo que complica el análisis necesario del valor atípico.

La reducción de la dimensionalidad contrarresta eso limitando el "ruido" en los datos y permitiendo una mejor visualización de ellos. Un buen ejemplo de reducción de dimensionalidad es el método de transformación de ondículas, que ayuda a la compresión de imágenes manteniendo la distancia relativa que existe entre los objetos en varios niveles de resolución.

La extracción de características es otra transformación posible de los datos, que consiste en cambiar los datos originales en características numéricas y funciona junto con el aprendizaje automático. Se diferencia del análisis de componentes principales (ACP), otro medio de reducir la dimensionalidad de grandes conjuntos de datos, en el que un conjunto considerable de variables se transforma en un conjunto más pequeño conservando la mayoría de los datos del conjunto grande.

Reducción de la numerosidad

El otro método consiste en seleccionar un formato más pequeño y de menos uso intensivo en datos para representar los datos. Hay dos tipos de reducción de la numerosidad: la que se basa en métodos paramétricos y la que se basa en métodos no paramétricos. Los métodos paramétricos, como la regresión, se concentran en los parámetros del modelo, excluyendo los datos en sí. Del mismo modo, se puede emplear un modelo logarítmico lineal que se centre en los subespacios dentro de los datos. Mientras tanto, los métodos no paramétricos (como los histogramas, que muestran la forma en que se distribuyen los datos numéricos) no dependen en absoluto de los modelos.

Agregación de cubos de datos

Los cubos de datos son una forma visual de almacenar datos. El término "cubo de datos" es en realidad casi engañoso en su singularidad implícita, porque en realidad está describiendo un cubo grande y multidimensional que se compone de cuboides más pequeños y organizados. Cada uno de los cuboides representa algún aspecto de los datos totales dentro de ese cubo de datos, específicamente fragmentos de datos relacionados con medidas y dimensiones. La agregación de cubos de datos, por lo tanto, es la consolidación de datos en el formato visual de cubo multidimensional, que reduce el tamaño de los datos al dotarlos de un contenedor único construido específicamente para ese fin.

Discretización de los datos

Otro método para la reducción de datos es la discretización de los datos, en la que se crea un conjunto lineal de valores de datos basado en un conjunto definido de intervalos que corresponden a un valor de datos determinado.

Compresión de datos

Para limitar el tamaño de los archivos y lograr una compresión de datos exitosa, se pueden emplear varios tipos de codificación. En general, se considera que las técnicas de compresión de datos emplean la compresión sin pérdida o la compresión con pérdida, y se agrupan de acuerdo con esos dos tipos. En la compresión sin pérdidas, el tamaño de los datos se reduce mediante técnicas y algoritmos de codificación, y los datos originales completos se pueden restaurar si es necesario. La compresión con pérdidas, por otro lado, emplea otros métodos para realizar su compresión, y aunque puede valer la pena conservar sus datos procesados, no se tratará de una copia exacta, como se obtendría con la compresión sin pérdidas.

Preprocesamiento de datos

Algunos datos deben limpiar, tratar y procesar antes de someter a los procesos de análisis y reducción de datos. Parte de esa transformación puede implicar cambiar los datos de naturaleza analógica a digital. La discretización es otro ejemplo de preprocesamiento de datos, en el que se emplean valores medianos para normalizar varios tipos de datos y garantizar la integridad de los datos en todos los ámbitos.

Soluciones relacionadas

Sustentabilidad del almacenamiento con IBM Storage FlashSystem

Hágase de una situación beneficiosa tanto para su organización como para el medio ambiente con el almacenamiento IBM® FlashSystem. Consuma menos energía y ahorre costos, al tiempo que reduce la footprint de carbono de su compañía.

Explorar la sustentabilidad del almacenamiento con IBM Storage FlashSystem

IBM Spectrum Virtualize for Public Cloud

Imagine una solución que admita la duplicación de centros de datos on-premises y en cloud o entre centros de datos en cloud. IBM Spectrum Virtualize for Public Cloud también ayuda a implementar estrategias de recuperación en casos de desastres.

Explorar IBM Spectrum Virtualize for Public Cloud

Almacenamiento como servicio de IBM

Obtenga lo mejor de dos mundos con el almacenamiento como servicio de IBM Comience con el hardware on-premises proporcionado y gestionado por IBM. Úselo con un modelo de precios basado en el consumo, similar al de cloud, para obtener una combinación flexible.

Explorar IBM Storage-as-a-Service

Recursos

Recorrido del producto IBM FlashSystem

Descubra FlashSystem con tecnología IBM Spectrum Virtualize Software, que utiliza virtualización simétrica.

Ver seminario web sobre almacenamiento sustentable

Los costos de la energía y los datos parecen estar creciendo a un ritmo exponencial. A medida que las empresas se enfrentan a esta costosa realidad, necesitan un almacenamiento energéticamente eficiente en el que puedan confiar.

Herramienta de estimación de la reducción de datos de IBM

La herramienta de estimación de la reducción de datos (DRET) es una línea de comandos basada en host para estimar el ahorro de reducción de datos en dispositivos de bloques.

¿Qué es la consolidación de datos?

Descubra por qué muchas organizaciones confían en las herramientas de consolidación de datos para gestionar sus almacenes de datos.

¿Qué es el almacenamiento de datos?

Conozca los conceptos básicos del almacenamiento de datos, incluidos los tipos de dispositivos de almacenamiento y los distintos formatos de almacenamiento de datos.

¿Qué es el almacenamiento flash?

Las soluciones de almacenamiento flash pueden variar desde unidades USB hasta matrices de nivel empresarial. Conozca por qué hacen lo que hacen.

Dé el siguiente paso

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de aprendizaje automático con IBM® watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai

Reserve una demostración en vivo