En los últimos años se produjo una explosión en la proliferación de unidades de autoalmacenamiento. Estos grandes almacenes surgieron en todo el país como una industria en auge por una razón: el ciudadano medio tiene ahora más posesiones de las que sabe qué hacer con ellas.
La misma situación básica también afecta al mundo de TI. Estamos en medio de una explosión de datos. Incluso los objetos cotidianos relativamente simples ahora generan datos de forma rutinaria por sí mismos gracias a la funcionalidad de Internet de las cosas (IoT) . Nunca antes en la historia se crearon, recopilado y analizado tantos datos. Y nunca antes los administradores de datos lucharon con el problema de cómo almacenar tantos datos.
Inicialmente, es posible que una compañía no reconozca el problema o lo grande que puede llegar a ser, y luego esa compañía tenga que encontrar una solución de mayor almacenamiento. Con el tiempo, la compañía también puede superar ese sistema de almacenamiento, lo que requiere aún más inversión. Inevitablemente, la compañía se cansará de este juego y buscará una opción más barata y sencilla, lo que nos lleva a la deduplicación de datos.
Aunque muchas organizaciones emplean técnicas de deduplicación de datos (o “desduplicación”) como parte de su sistema de gestión de datos, no tantas entienden realmente qué es el proceso de deduplicación y qué pretende hacer. Entonces, desmitifiquemos la deduplicación y expliquemos cómo funciona la deduplicación de datos.
Primero, aclaremos nuestro término principal. La deduplicación de datos es un proceso que las organizaciones utilizan para optimizar sus retenciones de datos y reducir la cantidad de datos que archivan al eliminar las copias redundantes de datos.
Además, debemos señalar que cuando hablamos de datos redundantes, en realidad estamos hablando a nivel de archivo y haciendo referencia a una proliferación desenfrenada de archivos de datos. Por lo tanto, cuando hablamos de los esfuerzos de deduplicación de datos, en realidad lo que se necesita es un sistema de deduplicación de archivos.
Algunas personas tienen una noción incorrecta sobre la naturaleza de los datos, viéndolos como una mercancía que simplemente existe para ser recolectada y cosechada, como manzanas de un árbol de su propio patio trasero.
La realidad es que cada nuevo archivo de datos cuesta dinero. En primer lugar, suele costar dinero obtener dichos datos (a través de la compra de listas de datos). O se requiere una inversión financiera sustancial para que una organización pueda recopilar datos por sí misma, incluso si se trata de datos que la propia organización produce y recopila orgánicamente. Por lo tanto, los conjuntos de datos son una inversión y, como cualquier inversión valiosa, deben proteger rigurosamente.
En este caso, estamos hablando del espacio de almacenamiento de datos, ya sea en forma de servidores de hardware on-premises o a través del almacenamiento en la nube mediante un centro de datos basado en la nube que debe comprarse o alquilarse.
Por lo tanto, las copias duplicadas de datos que se sometieron a replicación restan valor al resultado final al imponer costos de almacenamiento adicionales más allá de los asociados con el sistema de almacenamiento primario y su espacio de almacenamiento. En resumen, se deben dedicar más activos de medios de almacenamiento para acomodar tanto los datos nuevos como los datos ya almacenados. En algún momento de la trayectoria de una compañía, los datos duplicados pueden convertir fácilmente en una responsabilidad financiera.
En resumen, el objetivo principal de la deduplicación de datos es ahorrar dinero al permitir que las organizaciones gasten menos en almacenamiento adicional.
También hay otras razones más allá de la capacidad de almacenamiento para que las compañías adopten soluciones de deduplicación de datos, probablemente ninguna más esencial que la protección y mejora de datos que brindan. Las organizaciones refinan y optimizan las cargas de trabajo de datos deduplicados para que se ejecuten de manera más eficiente que los datos que están plagados de archivos duplicados.
Otro aspecto importante de la deduplicación es cómo ayuda a potenciar un esfuerzo rápido y exitoso de recuperación ante desastres y minimiza la cantidad de pérdida de datos que a menudo puede resultar de tal evento. Dedupe ayuda a habilitar un proceso de copia de seguridad estable para que el sistema de copia de seguridad de una organización esté a la altura de la tarea de manejar sus datos de copia de seguridad. Además de ayudar con las copias de seguridad completas, la deduplicación también ayuda en los esfuerzos de retención.
Aún otro beneficio de la deduplicación de datos es lo bien que funciona con los despliegues de infraestructuras de escritorios virtuales (VDI), gracias a que los discos duros virtuales detrás de los escritorios remotos de la VDI funcionan de forma idéntica. Entre los productos populares de escritorio como servicio (DaaS) se incluyen Azure Virtual Desktop de Microsoft y su Windows VDI. Estos productos crean máquinas virtuales (VM), que se crean durante el proceso de virtualización del servidor. A su vez, estas máquinas virtuales potencian la tecnología VDI.
La forma más empleada de deduplicación de datos es la deduplicación por bloques. Este método emplea funciones automatizadas para identificar duplicaciones en bloques de datos y eliminarlas. Al trabajar a este nivel de bloque, los fragmentos de datos únicos pueden analizarse y especificarse como dignos de dignos de validación y preservación. Entonces, cuando el software de deduplicación detecta una repetición del mismo bloque de datos, esa repetición se elimina y en su lugar se incluye una referencia a los datos originales.
Esa es la principal forma de deduplicación, pero no es el único método. En otros casos de uso, un método alternativo de deduplicación de datos opera a nivel de archivo. Compara copias completas de datos dentro del servidor de archivos, pero no trozos o bloques de datos. Al igual que su método homólogo, la deduplicación de archivos depende de mantener el archivo original dentro del sistema de archivos y eliminar las copias adicionales.
Cabe señalar que las técnicas de deduplicación no funcionan de la misma manera que los algoritmos de compresión de datos (por ejemplo, LZ77, LZ78), aunque es cierto que ambos persiguen el mismo objetivo general de reducir las redundancias de datos. Las técnicas de deduplicación logran este objetivo a este objetivo a una escala mayor y macro que los algoritmos de compresión, cuyo objetivo consiste menos en reemplazar archivos idénticos por copias compartidas y más en más en codificar las redundancias de datos.
Existen diferentes tipos de deduplicación de datos según cuándo se produzca el proceso de deduplicación:
Aquí vale la pena explicar que ambos tipos de deduplicación de datos se ven afectados por los cálculos hash inherentes a la deduplicación de datos. Estos cálculos criptográficos son esenciales para identificar patrones repetidos en los datos. Durante las deduplicación en línea, esos cálculos se realizan en el momento, lo que puede dominar y sobrecargar temporalmente la funcionalidad de la computadora. En las deduplicaciones de posprocesamiento, los cálculos de hash se pueden realizar en cualquier momento luego de agregar los datos de una manera y en un momento que no sobrecargue los recursos informáticos de la organización.
Las sutiles diferencias entre los tipos de deduplicación no acaban ahí. Otra forma de clasificar los tipos de deduplicación se basa en dónde estén estos procesos.
Dado que existen diferentes tipos de deduplicación practicados, las organizaciones con visión de futuro deben tomar decisiones cuidadosas y meditadas sobre el tipo de deduplicación elegido, equilibrando ese método con las necesidades particulares de esa empresa.
En muchos casos de uso, el método de deduplicación elegido por una organización puede muy bien reducirse a diversas variables internas, como las siguientes:
Al igual que todos los resultados informáticos, la deduplicación de datos está preparada para hacer un uso cada vez mayor de la inteligencia artificial (IA) a medida que continúa evolucionando. La eliminación de datos duplicados se volverá cada vez más sofisticada a medida que desarrolle aún más matices que lo ayuden a encontrar patrones de redundancia a medida que se escanean bloques de datos.
Una tendencia emergente en la deduplicación es el aprendizaje por refuerzo. Esto emplea un sistema de recompensas y sanciones (como en el entrenamiento de refuerzo) y aplica una política óptima para separar registros o fusionarlos.
Otra tendencia que vale la pena observar es el uso de métodos de conjunto, en los que se emplean diferentes modelos o algoritmos en conjunto para garantizar una precisión aún mayor dentro del proceso de eliminación de datos duplicados.
El mundo de TI está cada vez más obsesionado con el problema actual de la proliferación de datos y qué hacer al respecto. Muchas compañías se encuentran en la engorrosa posición de querer retener todos los datos que trabajaron para acumular y, al mismo tiempo, querer almacenar sus nuevos datos desbordados en cualquier contenedor de almacenamiento posible, aunque solo sea para quitarlos de en medio.
Mientras persista ese dilema, el énfasis en los esfuerzos de deduplicación de datos continuará a medida que las organizaciones vean la deduplicación como la alternativa más barata a comprar más almacenamiento. Porque, en última instancia, aunque entendemos intuitivamente que el negocio necesita datos, también sabemos que los datos a menudo requieren deduplicación.