Inicio Topics Reducción de datos ¿En qué consiste la reducción de datos?
Explore nuestra plataforma de IA Suscríbase para conocer lo último en IA
Hombre en sala de servidores

Publicado: 18 de enero de 2024
Colaboradores: Phill Powell, Ian Smalley

¿En qué consiste la reducción de datos?

La reducción de datos es el proceso por el que una organización establece un límite a la cantidad de datos que almacena.

Las técnicas de reducción de datos se utilizan para reducir la redundancia en el conjunto de datos original, de modo que grandes cantidades de datos originales puedan almacenarse de forma más eficiente a modo de datos reducidos.

Conviene subrayar desde el principio que el término "reducción de datos" no equivale automáticamente a una pérdida de información. En muchos casos, la reducción de datos solo significa que los datos se han almacenado de una forma más inteligente, tal vez después de haber pasado por el proceso de optimización, y se han vuelto a ensamblar con los datos relacionados en una configuración más práctica.

La reducción de datos tampoco es lo mismo que la deduplicación de datos, que consiste en eliminar copias adicionales de esos mismos datos con fines de simplificación. Para ser más precisos, la reducción de datos combina varios aspectos de diferentes actividades, como la deduplicación de datos y la consolidación de datos, para lograr sus objetivos.

Por qué la gobernanza de IA es un imperativo empresarial para escalar la IA empresarial

Conozca los obstáculos para la adopción de la IA, en particular la falta de soluciones de gestión de riesgos y gobernanza de la IA.

Contenido relacionado

Regístrese para recibir la guía sobre modelos fundacionales

Una visión más completa de los datos

Cuando hablamos de datos en el contexto de la reducción de datos, a menudo nos referimos a ellos en singular, en contraposición a la forma plural que se utiliza normalmente. Un aspecto de la reducción de datos, por ejemplo, es la definición de las dimensiones físicas reales de los puntos de datos individuales.

Hay una cantidad considerable de ciencia de datos implicada en la reducción de datos. Se trata de una materia a que puede ser bastante compleja y difícil de sintetizar, y este dilema ha dado lugar a su propio término: la interpretabilidad, es decir, la capacidad de un ser humano de inteligencia media para comprender un determinado modelo de machine learning.

Comprender el significado de algunos de estos términos supone un reto, ya que el dato se observa desde una perspectiva casi microscópica. Normalmente hablamos de los datos en su forma "macro", pero cuando se trata de la reducción de datos, a menudo nos referimos a ellos en su sentido más "micro". Para ser más exactos, la mayoría de los debates sobre este tema requerirán tanto discusiones a nivel macro como otras en el extremo micro de la escala.

Beneficios de la reducción de datos

Cuando una organización reduce la cantidad de datos que posee, suele conseguir importantes ahorros económicos en forma de menores costes de almacenamiento, ya que se necesita menos espacio de almacenamiento.

Los métodos de reducción de datos también ofrecen otras ventajas, como el aumento de la eficacia de los datos. Cuando se ha conseguido reducir los datos, esos datos resultantes son más fáciles de utilizar por métodos de inteligencia artificial (IA) de diversas formas, incluidas sofisticadas aplicaciones de análisis que pueden agilizar enormemente las tareas de toma de decisiones.

Por ejemplo, una virtualización del almacenamiento, cuando se utiliza satisfactoriamente, facilita la coordinación entre los entornos de servidor y de escritorio, mejorando su eficacia y fiabilidad generales.

Las labores de reducción de datos desempeñan un papel clave en las actividades de minería de datos. Los datos deben estar lo más limpios y preparados posible antes de extraerlos para el análisis de datos.

Modelos de reducción de datos

Los siguientes son algunos de los métodos que las organizaciones pueden utilizar en la reducción de datos.

Reducción de dimensionalidad

La noción de dimensionalidad de los datos sustenta todo este concepto. La dimensionalidad se refiere al número de atributos (o características) asignados a un único conjunto de datos. Sin embargo, aquí hay una contrapartida: cuanto mayor sea la dimensionalidad, más almacenamiento de datos exigirá ese conjunto de datos. Además, a mayor dimensionalidad, más frecuente es que los datos tiendan a ser dispersos, lo que complica el necesario análisis de valores atípicos.

Reducir la dimensionalidad contrarresta ese efecto al limitar el "ruido" de los datos y permitir una mejor visualización de los mismos. Un ejemplo excelente de reducción de la dimensionalidad es el método de la transformada de ondícula, que facilita la compresión de imágenes al mantener la distancia relativa que existe entre los objetos en varios niveles de resolución.

La extracción de características es otra posible forma de transformar los datos. Se trata de convertir los datos originales en características numéricas y funciona conjuntamente con el machine learning. Se diferencia del análisis de componentes principales (ACP), otro método para reducir la dimensionalidad de grandes conjuntos de datos. En él, un conjunto considerable de variables se transforma en un conjunto más pequeño, pero conservando la mayor parte de los datos del conjunto grande.

Reducción de la numerosidad

Este otro método consiste en seleccionar un formato más pequeño y con menor uso intensivo de datos para su representación. Existen dos tipos de reducción de la numerosidad: la que se basa en métodos paramétricos y la que se basa en métodos no paramétricos. Los métodos paramétricos, como la regresión, se concentran en los parámetros del modelo, con exclusión de los propios datos. Del mismo modo, podría emplearse un modelo logarítmico-lineal que se centrara en los subespacios dentro de los datos. Mientras tanto, los métodos no paramétricos (como los histogramas, que muestran la forma en que se distribuyen los datos numéricos) no se basan en ningún modelo.

Agregación de cubos de datos

Los cubos de datos son una forma visual de almacenar datos. En realidad, el término "cubo de datos" es un tanto engañoso al implicar una singularidad, ya que en realidad describe un cubo grande y multidimensional formado por cuboides más pequeños y organizados. Cada uno de estos cuboides representa algún aspecto de los datos totales dentro de ese cubo de datos, en concreto fragmentos de datos relativos a medidas y dimensiones. La agregación de cubos de datos es, por tanto, la consolidación de datos en el formato visual de un cubo multidimensional, que reduce el tamaño de los datos al almacenarlos en un contenedor único y específico para ese fin.

Discretización de datos

Otro método de reducción de datos es la discretización de datos, en la que se crea un conjunto lineal de valores de datos basado en un conjunto definido de intervalos, cada uno de los cuales corresponde a un valor de datos específico.

Compresión de datos

Se pueden utilizar varios tipos de codificación para limitar el tamaño de los archivos y lograr una compresión de datos satisfactoria. En general, se considera que las técnicas de compresión de datos utilizan la compresión sin pérdidas o la compresión con pérdidas, y se agrupan según esos dos tipos. En la compresión sin pérdidas, el tamaño de los datos se reduce mediante técnicas y algoritmos de codificación, y los datos originales completos pueden restaurarse si es necesario. La compresión con pérdidas, en cambio, utiliza otros métodos de compresión. Aunque los datos procesados se conservan, no son una copia exacta, como ocurre con la compresión sin pérdidas.

Preprocesamiento de datos

Algunos datos deben limpiarse, tratarse y procesarse antes de someterlos a los procesos de análisis y reducción de datos. Parte de esta transformación puede implicar la conversión de los datos de analógicos a digitales. El binning es otro ejemplo de preprocesamiento de datos, en el que se utilizan valores medianos para normalizar diversos tipos de datos y garantizar la integridad de los datos en su conjunto.

Soluciones relacionadas
Almacenamiento sostenible con IBM FlashSystem

Disfrute de una situación beneficiosa tanto para su organización como para el medioambiente gracias al almacenamiento IBM FlashSystem. Consuma menos energía y ahorre costes, al tiempo que reduce la huella de carbono de su empresa.

Explore la sostenibilidad del almacenamiento con IBM FlashSystem

IBM Spectrum Virtualize for Public Cloud

Imagine una solución que admita la duplicación entre centros de datos locales y en la nube o entre centros de datos en la nube. IBM Spectrum Virtualize for Public Cloud también implementa estrategias de recuperación ante desastres.

Explorar IBM Spectrum Virtualize for Public Cloud

IBM Storage-as-a-Service

Obtenga lo mejor de dos mundos con IBM Storage as-a-Service. Comience con hardware instalado en las instalaciones, proporcionado y gestionado por IBM. Combínelo con un modelo de precios por consumo, similar al de la nube, para obtener una combinación flexible.

Explorar IBM Storage-as-a-Service
Recursos Visita guiada de IBM FlashSystem

Descubra FlashSystem con tecnología IBM Spectrum Virtualize Software, que utiliza virtualización simétrica.

Vea el webinar sobre almacenamiento sostenible

Tanto los costes energéticos como los datos parecen crecer a un ritmo exponencial. A medida que las empresas se enfrentan a esta costosa realidad, necesitan un almacenamiento de consumo eficiente en el que puedan confiar.

Herramienta de estimación de la reducción de datos de IBM

La herramienta de estimación de reducción de datos (DRET) es un servicio por línea de comandos basada en el host para estimar el ahorro de reducción de datos en los dispositivos de bloque.

¿Qué es la consolidación de datos?

Descubra por qué muchas organizaciones confían en las herramientas de consolidación de datos para gestionar sus almacenes de datos.

¿Qué es el almacenamiento de datos?

Conozca los conceptos básicos del almacenamiento de datos, incluidos los tipos de dispositivos de almacenamiento y los distintos formatos de almacenamiento de datos.

¿Qué es el almacenamiento flash?

Las soluciones de almacenamiento flash abarcan desde unidades USB hasta matrices de nivel empresarial. Descubra cómo funcionan.

Dé el siguiente paso

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para constructores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai Solicite una demostración en directo