Publicado:18 de enero de 2024
Colaboradores: Phill Powell, Ian Smalley
La reducción de datos es el proceso por el que una organización se propone limitar la cantidad de datos que almacena.
Las técnicas de reducción de datos tratan de disminuir la redundancia del conjunto de datos original, de modo que grandes cantidades de datos de origen puedan almacenarse de forma más eficiente como datos reducidos.
En primer lugar, cabe destacar que el término "reducción de datos" no equivale automáticamente a una pérdida de información. En muchos casos, la reducción de datos solo significa que ahora los datos se almacenan de forma más inteligente, tal vez tras pasar por un proceso de optimización y luego volverse a ensamblar con datos relacionados en una configuración más práctica.
La reducción de datos tampoco es lo mismo que la deduplicación de datos, en la que se purgan copias adicionales de los mismos datos con fines de racionalización. Más precisamente, la reducción de datos combina varios aspectos de diferentes actividades, como la deduplicación de datos y la consolidación de datos, para lograr sus objetivos.
Conozca los obstáculos para la adopción de la IA, en particular la falta de soluciones de gobernanza y gestión de riesgos.
Regístrese para obtener la guía sobre modelos fundacionales
Cuando se hace referencia a los datos en el contexto de la reducción de datos, a menudo hablamos de datos en singular, en lugar de en plural. Un aspecto de la reducción de datos, por ejemplo, tiene que ver con la definición de las dimensiones físicas reales de los puntos de datos individuales.
Hay una cantidad considerable de ciencia de datos implicada en las actividades de reducción de datos. El material puede ser bastante complejo y difícil de resumir de forma concisa, y este dilema dio lugar a su propio término: interpretabilidad, es decir, la capacidad de un ser humano de inteligencia media para entender un determinado modelo de aprendizaje automático.
Comprender los significados de algunos de estos términos puede ser un desafío porque se trata de datos vistos desde una perspectiva casi microscópica. Por lo general, hablamos de datos en su forma "macro", pero en la reducción de datos, a menudo hablamos de datos en su sentido más "micro". Más exactamente, la mayoría de las discusiones sobre este tema requerirán que se hable tanto a nivel macro como en el extremo micro de la escala.
Cuando una organización reduce su volumen de datos, suele obtener importantes ahorros económicos gracias reducción de los costos de almacenamiento asociados al menor consumo de espacio para almacenar.
Los métodos de reducción de datos también ofrecen otros beneficios, como el aumento de la eficiencia de los datos. Una vez lograda la reducción de datos, los métodos de inteligencia artificial (IA) pueden usar los datos resultantes más fácilmente de diversas maneras, incluidas las aplicaciones de analytics de datos sofisticadas que pueden agilizar enormemente las tareas de toma de decisiones.
Por ejemplo, cuando la virtualización de almacenamiento se emplea con éxito, ayuda a la coordinación entre los entornos de servidor y escritorio, mejorando su eficiencia general y haciéndolos más fiables.
Las actividades de reducción de datos desempeñan un papel clave en las actividades de minería de datos. Los datos deben estar lo más limpios y preparados posible antes de extraerlos y usarlos para el análisis de datos.
Los siguientes son algunos de los métodos que las organizaciones pueden emplear para lograr la reducción de datos.
La noción de dimensionalidad de los datos sustenta todo este concepto. La dimensionalidad se refiere al número de atributos (o características) asignados a un único conjunto de datos. Sin embargo, hay una contrapartida: cuanto mayor sea la dimensionalidad, mayor será el almacenamiento de datos necesario para ese conjunto de datos. Además, cuanto mayor es la dimensionalidad, más a menudo los datos tienden a ser escasos, lo que complica el análisis necesario del valor atípico.
La reducción de la dimensionalidad contrarresta eso limitando el "ruido" en los datos y permitiendo una mejor visualización de ellos. Un buen ejemplo de reducción de dimensionalidad es el método de transformación de ondículas, que ayuda a la compresión de imágenes manteniendo la distancia relativa que existe entre los objetos en varios niveles de resolución.
La extracción de características es otra transformación posible de los datos, que consiste en cambiar los datos originales en características numéricas y funciona junto con el aprendizaje automático. Se diferencia del análisis de componentes principales (ACP), otro medio de reducir la dimensionalidad de grandes conjuntos de datos, en el que un conjunto considerable de variables se transforma en un conjunto más pequeño conservando la mayoría de los datos del conjunto grande.
El otro método consiste en seleccionar un formato más pequeño y de menos uso intensivo en datos para representar los datos. Hay dos tipos de reducción de la numerosidad: la que se basa en métodos paramétricos y la que se basa en métodos no paramétricos. Los métodos paramétricos, como la regresión, se concentran en los parámetros del modelo, excluyendo los datos en sí. Del mismo modo, se puede emplear un modelo logarítmico lineal que se centre en los subespacios dentro de los datos. Mientras tanto, los métodos no paramétricos (como los histogramas, que muestran la forma en que se distribuyen los datos numéricos) no dependen en absoluto de los modelos.
Los cubos de datos son una forma visual de almacenar datos. El término "cubo de datos" es en realidad casi engañoso en su singularidad implícita, porque en realidad está describiendo un cubo grande y multidimensional que se compone de cuboides más pequeños y organizados. Cada uno de los cuboides representa algún aspecto de los datos totales dentro de ese cubo de datos, específicamente fragmentos de datos relacionados con medidas y dimensiones. La agregación de cubos de datos, por lo tanto, es la consolidación de datos en el formato visual de cubo multidimensional, que reduce el tamaño de los datos al dotarlos de un contenedor único construido específicamente para ese fin.
Otro método para la reducción de datos es la discretización de los datos, en la que se crea un conjunto lineal de valores de datos basado en un conjunto definido de intervalos que corresponden a un valor de datos determinado.
Para limitar el tamaño de los archivos y lograr una compresión de datos exitosa, se pueden emplear varios tipos de codificación. En general, se considera que las técnicas de compresión de datos emplean la compresión sin pérdida o la compresión con pérdida, y se agrupan de acuerdo con esos dos tipos. En la compresión sin pérdidas, el tamaño de los datos se reduce mediante técnicas y algoritmos de codificación, y los datos originales completos se pueden restaurar si es necesario. La compresión con pérdidas, por otro lado, emplea otros métodos para realizar su compresión, y aunque puede valer la pena conservar sus datos procesados, no se tratará de una copia exacta, como se obtendría con la compresión sin pérdidas.
Algunos datos deben limpiar, tratar y procesar antes de someter a los procesos de análisis y reducción de datos. Parte de esa transformación puede implicar cambiar los datos de naturaleza analógica a digital. La discretización es otro ejemplo de preprocesamiento de datos, en el que se emplean valores medianos para normalizar varios tipos de datos y garantizar la integridad de los datos en todos los ámbitos.
Hágase de una situación beneficiosa tanto para su organización como para el medio ambiente con el almacenamiento IBM® FlashSystem. Consuma menos energía y ahorre costos, al tiempo que reduce la footprint de carbono de su compañía.
Imagine una solución que admita la duplicación de centros de datos on-premises y en cloud o entre centros de datos en cloud. IBM Spectrum Virtualize for Public Cloud también ayuda a implementar estrategias de recuperación en casos de desastres.
Obtenga lo mejor de dos mundos con el almacenamiento como servicio de IBM Comience con el hardware on-premises proporcionado y gestionado por IBM. Úselo con un modelo de precios basado en el consumo, similar al de cloud, para obtener una combinación flexible.
Descubra FlashSystem con tecnología IBM Spectrum Virtualize Software, que utiliza virtualización simétrica.
Los costos de la energía y los datos parecen estar creciendo a un ritmo exponencial. A medida que las empresas se enfrentan a esta costosa realidad, necesitan un almacenamiento energéticamente eficiente en el que puedan confiar.
La herramienta de estimación de la reducción de datos (DRET) es una línea de comandos basada en host para estimar el ahorro de reducción de datos en dispositivos de bloques.
Descubra por qué muchas organizaciones confían en las herramientas de consolidación de datos para gestionar sus almacenes de datos.
Conozca los conceptos básicos del almacenamiento de datos, incluidos los tipos de dispositivos de almacenamiento y los distintos formatos de almacenamiento de datos.
Las soluciones de almacenamiento flash pueden variar desde unidades USB hasta matrices de nivel empresarial. Conozca por qué hacen lo que hacen.