Un conjunto de datos es una colección de datos normalmente organizados en tablas, matrices o formatos específicos, como CSV o JSON, para facilitar su búsqueda y análisis. Los conjuntos de datos son esenciales para el análisis de datos, machine learning , IA y otras aplicaciones que requieren datos fiables y accesibles.
Hoy en día, las organizaciones recopilan grandes cantidades de datos de diversas fuentes, incluidas las interacciones con los clientes, las transacciones financieras, los dispositivos IoT y las plataformas de redes sociales.
Para desbloquear el valor comercial de todos estos datos, a menudo deben organizarse en conjuntos de datos: colecciones organizadas que hagan que la información sea accesible para su análisis y aplicación.
Los diferentes tipos de conjuntos de datos almacenan datos de diversas maneras. Por ejemplo, los conjuntos de datos estructurados suelen organizar puntos de datos en tablas con filas y columnas definidas. Los conjuntos de datos no estructurados pueden contener formatos variados, como archivos de texto, imágenes y audio.
Si bien no todos los conjuntos de datos involucran datos estructurados, siempre tienen alguna estructura general, ya sean esquemas definidos o sintaxis poco organizada en formatos de datos semiestructurados como JSON o XML.
Algunos ejemplos de conjuntos de datos incluyen:
Las organizaciones suelen emplear y mantener varios conjuntos de datos para respaldar diversas iniciativas empresariales, como el análisis de datos y la business intelligence (BI).
El big data, en particular, se basa en conjuntos de datos masivos y complejos para ofrecer valor. Cuando se recopilan, gestionan y analizan adecuadamente mediante analytics de big data, estos conjuntos de datos pueden ayudar a descubrir nuevos insights y permitir la toma de decisiones basada en datos.
En los últimos años, el auge de la inteligencia artificial (IA) y el machine learning han aumentado aún más el enfoque en los conjuntos de datos. Las organizaciones necesitan datos de entrenamiento extensos y bien organizados para desarrollar modelos precisos de machine learning y refinar algoritmos predictivos.
Según Gartner, el 61 % de las organizaciones informan que tienen que evolucionar o repensar su modelo operativo de datos y analytics debido al impacto de las tecnologías de AI.1
Aunque el término "conjunto de datos" a menudo se usa de manera amplia, ciertas cualidades determinan si una colección de datos constituye un conjunto de datos. Generalmente, los conjuntos de datos tienen 3 características fundamentales:
Representan los atributos o características específicos que se estudian dentro del conjunto de datos. Por ejemplo, en un conjunto de datos de ventas, las variables pueden incluir el ID del producto, el precio y la fecha de compra. Las variables a menudo sirven como entradas para algoritmos de machine learning y análisis estadísticos.
Definen la estructura de un conjunto de datos, incluidas las relaciones y la sintaxis entre sus variables. Por ejemplo, el esquema de un conjunto de datos tabular podría describir los formatos del conjunto de datos y los encabezados de columna, como "fecha", "cantidad" y "Categories". Un esquema JSON podría describir estructuras de datos anidadas, como perfiles de clientes con atributos como "nombre", "correo electrónico" y una matriz de objetos de "historial de pedidos".
Metadatos odatos sobre datos, proporcionan un contexto esencial sobre el conjunto de datos, incluyendo detalles sobre su origen, propósito y pautas de uso. Esta información ayuda a garantizar que los conjuntos de datos sigan siendo interpretables y se integren de manera efectiva con otros sistemas.
No todas las colecciones de datos califican como conjuntos de datos. Las acumulaciones aleatorias de puntos de datos no relacionados normalmente no constituyen un conjunto de datos sin una organización y estructura adecuadas para permitir un análisis significativo.
De manera similar, si bien las interfaces de programación de aplicaciones (API), las bases de datos y las hojas de cálculo pueden interactuar con conjuntos de datos o contenerlos, no son necesariamente conjuntos de datos en sí mismas.
Las API permiten que las aplicaciones se comuniquen entre sí, lo que a veces implica acceder e intercambiar conjuntos de datos. Las bases de datos y las hojas de cálculo son contenedores de información, que pueden incluir conjuntos de datos.
Las organizaciones generalmente trabajan con 3 tipos principales de conjuntos de datos, generalmente clasificados según el tipo de datos que manejan:
Las organizaciones a menudo emplean múltiples tipos de conjuntos de datos en combinación para respaldar estrategias integrales de analytics de datos. Por ejemplo, una empresa de venta minorista podría analizar datos de ventas estructurados junto con comentarios de clientes no estructurados y analytics web semiestructurados para obtener mejores insights en el comportamiento y las preferencias de los clientes.
Los conjuntos de datos estructurados organizan la información en formatos predefinidos, normalmente tablas con filas y columnas claramente definidas. Estos conjuntos de datos son fundamentales para muchos procesos comerciales críticos, como la gestión de relaciones con los clientes (CRM) y la gestión de inventario.
Debido a que los conjuntos de datos estructurados siguen esquemas consistentes, permiten consultas rápidas y análisis confiables. Esto los hace ideales para herramientas de business intelligence y sistemas de reportes que requieren datos precisos y cuantificables.
Algunos ejemplos comunes de conjuntos de datos estructurados son:
Los conjuntos de datos no estructurados contienen información que no se ajusta a los modelos de datos tradicionales o esquemas rígidos. Si bien estos conjuntos de datos requieren herramientas de procesamiento más sofisticadas, a menudo contienen insights que los formatos de datos estructurados no pueden capturar.
Las organizaciones confían en conjuntos de datos no estructurados para impulsar la inteligencia artificial y los modelos de machine learning. Estos conjuntos de datos proporcionan los datos diversos y del mundo real necesarios para entrenar modelos de IA y desarrollar capacidades de analytics avanzados.
Algunos ejemplos comunes de conjuntos de datos no estructurados son:
Los conjuntos de datos semiestructurados cierran la brecha entre los datos estructurados y no estructurados. Si bien no siguen esquemas rígidos, incorporan sintaxis o marcadores definidos para ayudar a organizar la información en formatos flexibles pero analizables.
Este enfoque híbrido hace que los conjuntos de datos semiestructurados sean valiosos para proyectos y aplicaciones modernos de integración de datos que necesitan manejar diversos tipos de datos mientras mantienen cierta estructura organizacional.
Ejemplos comunes de conjuntos de datos semiestructurados incluyen:
Las organizaciones recopilan datos de múltiples fuentes para crear conjuntos de datos que respalden diversas iniciativas comerciales. Las fuentes de datos pueden determinar directamente tanto la calidad como la utilidad de los conjuntos de datos.
Estas son algunas fuentes de datos comunes:
Los repositorios de datos son almacenes centralizados de datos. Los repositorios de datos propios suelen albergar datos confidenciales o críticos para el negocio, como registros de clientes, transacciones financieras o métricas operativas que proporcionan ventajas competitivas.
Otros repositorios de datos están disponibles públicamente. Por ejemplo, una plataforma como GitHub aloja conjuntos de datos de código abierto junto con el código. Los investigadores y las organizaciones pueden utilizar estos conjuntos de datos públicos para colaborar abiertamente en modelos de machine learning y proyectos de ciencia de datos.
Las bases de datos son repositorios de datos digitales optimizados para almacenar datos de forma segura y recuperarlos fácilmente según sea necesario.
Una base de datos puede contener un único conjunto de datos o varios conjuntos de datos. Los usuarios pueden extraer rápidamente puntos de datos relevantes ejecutando consultas de bases de datos que utilizan lenguajes especializados, como el lenguaje de consulta estructurado (SQL).
Las API conectan aplicaciones de software para que puedan comunicarse. Los consumidores de datos pueden utilizar las API para capturar datos en tiempo real de fuentes conectadas, como servicios web y plataformas digitales, y canalizarlos a otras aplicaciones y repositorios para su uso.
Los científicos de datos a menudo crean canalizaciones automatizadas de recopilación de datos mediante el uso de lenguajes como Python, que ofrece bibliotecas sólidas para la integración de API y el procesamiento de datos. Por ejemplo, un sistema de analytics venta minorista podría utilizar estos pipelines automatizados para recopilar continuamente datos de compra de clientes y niveles de inventario de venta minorista en línea y sistemas de gestión de inventario.
Sitios como Data.gov e iniciativas de datos abiertos a nivel de ciudad, como New York City Open Data, brindan acceso gratuito a conjuntos de datos que incluyen métricas de atención médica, transporte y medio ambiente. Los investigadores pueden utilizar estos conjuntos de datos para estudiar todo, desde patrones de transporte hasta tendencias de estado público.
Desde potenciar la inteligencia artificial hasta permitir basados en datos insights, los conjuntos de datos son fundamentales para varias iniciativas empresariales y tecnológicas clave.
Algunas de las aplicaciones más comunes de los conjuntos de datos incluyen:
La inteligencia artificial (AI) tiene el potencial de ser un diferenciador crítico para muchas organizaciones.
Según el IBM Institute for Business Value, el 72 % de los directores ejecutivos (CEO) con mejor rendimiento creen que su ventaja competitiva depende de tener la IA generativa (IA gen) más avanzada. Estos sistemas de IA de vanguardia se basan en vastos conjuntos de datos, tanto etiquetados como no etiquetados, para entrenar modelos de manera efectiva.
Con datos de entrenamiento integrales, las organizaciones pueden desarrollar sistemas de AI que realicen tareas complejas, como:
Los modelos de PLN se basan en conjuntos de datos ingleses y multilingües para comprender el lenguaje humano y potenciar aplicaciones como modelos de lenguaje de gran tamaño (LLM), chatbots, servicios de traducción y herramientas de análisis de texto. Por ejemplo, un chatbot de atención al cliente puede utilizar PLN para analizar conjuntos de datos de conversaciones de soporte anteriores para aprender a responder a preguntas comunes.
Mediante el uso de conjuntos de datos etiquetadas, la IA puede aprender a reconocer objetos, rostros y patrones visuales. La visión artificial ayuda a impulsar la innovación en vehículos autónomos, análisis de imágenes médicas y más. Por ejemplo, los sistemas de AI en el sector sanitario pueden analizar conjuntos de datos de escáneres médicos para detectar signos tempranos de enfermedad con gran precisión.
El análisis predictivo se basa en conjuntos de datos estructurados para entrenar modelos para pronosticar resultados del mundo real, como los precios de la vivienda y la demanda de los consumidores. Estos modelos de regresión analizan patrones de datos históricos para hacer predicciones precisas, como analizar años de datos de ventas para predecir la demanda estacional y optimizar los niveles de inventario.
Los sistemas de AI pueden procesar vastos conjuntos de datos de investigación para descubrir nuevos insights y acelerar la innovación. Por ejemplo, las empresas farmacéuticas pueden utilizar AI para analizar conjuntos de datos moleculares e identificar nuevos candidatos a fármacos prometedores más rápidamente que los métodos tradicionales.
Los científicos de datos y analistas utilizan conjuntos de datos para extraer insights valiosos e impulsar el descubrimiento en todas las disciplinas. A medida que las organizaciones recopilan más datos que nunca, el análisis de datos se ha vuelto crucial para probar hipótesis, identificar tendencias y descubrir relaciones que informan las decisiones estratégicas.
Algunas formas comunes en que los conjuntos de datos ayudan al análisis de datos incluyen:
Las organizaciones utilizan business intelligence (BI) para descubrir insights en conjuntos de datos e impulsar la toma de decisiones en tiempo real.
Las herramientas de BI pueden ayudar a analizar varios tipos de datos para identificar tendencias, monitorear el rendimiento y descubrir nuevas oportunidades. Algunas aplicaciones incluyen:
El manejo de conjuntos de datos grandes y complejos para cualquier iniciativa puede presentar varios desafíos y consideraciones. Algunos de los más destacados incluyen:
Todos los enlaces son externos a ibm.com.
1 Las organizaciones están evolucionando su modelo operativo de D&A debido a las tecnologías de IA, Gartner, 29 de abril de 2024.
Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.
Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.
Presentamos Cognos Analytics 12.0: insights impulsados por IA para una mejor toma de decisiones.