¿Qué es un conjunto de datos?

Gráfico de muchos gráficos y diagramas diferentes utilizados para la visualización de datos

Autores

Annie Badman

Staff Writer

IBM Think

Matthew Kosinski

Staff Editor

IBM Think

¿Qué es un conjunto de datos?

Un conjunto de datos es una colección de datos normalmente organizados en tablas, matrices o formatos específicos, como CSV o JSON, para facilitar su búsqueda y análisis. Los conjuntos de datos son esenciales para el análisis de datos, machine learning , IA y otras aplicaciones que requieren datos fiables y accesibles.

Hoy en día, las organizaciones recopilan grandes cantidades de datos de diversas fuentes, incluidas las interacciones con los clientes, las transacciones financieras, los dispositivos IoT y las plataformas de redes sociales.

Para desbloquear el valor comercial de todos estos datos, a menudo deben organizarse en conjuntos de datos: colecciones organizadas que hagan que la información sea accesible para su análisis y aplicación.

Los diferentes tipos de conjuntos de datos almacenan datos de diversas maneras. Por ejemplo, los conjuntos de datos estructurados suelen organizar puntos de datos en tablas con filas y columnas definidas. Los conjuntos de datos no estructurados pueden contener formatos variados, como archivos de texto, imágenes y audio.

Si bien no todos los conjuntos de datos involucran datos estructurados, siempre tienen alguna estructura general, ya sean esquemas definidos o sintaxis poco organizada en formatos de datos semiestructurados como JSON o XML.

Algunos ejemplos de conjuntos de datos incluyen:

  • Conjuntos de datos de atención al cliente que rastrean las interacciones y resoluciones de soporte.
  • Conjuntos de datos de fabricación que monitorean las métricas de rendimiento del equipamiento.
  • Conjuntos de datos de ventas que analizan los patrones de transacción y el comportamiento del consumidor.
  • Conjuntos de datos de marketing que miden la eficacia y el compromiso de las campañas.

Las organizaciones suelen emplear y mantener varios conjuntos de datos para respaldar diversas iniciativas empresariales, como el análisis de datos y la business intelligence (BI).

El big data, en particular, se basa en conjuntos de datos masivos y complejos para ofrecer valor. Cuando se recopilan, gestionan y analizan adecuadamente mediante analytics de big data, estos conjuntos de datos pueden ayudar a descubrir nuevos insights y permitir la toma de decisiones basada en datos.

En los últimos años, el auge de la inteligencia artificial (IA) y el machine learning han aumentado aún más el enfoque en los conjuntos de datos. Las organizaciones necesitan datos de entrenamiento extensos y bien organizados para desarrollar modelos precisos de machine learning y refinar algoritmos predictivos.

Según Gartner, el 61 % de las organizaciones informan que tienen que evolucionar o repensar su modelo operativo de datos y analytics debido al impacto de las tecnologías de AI.1

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Qué es y qué no es un conjunto de datos

Aunque el término "conjunto de datos" a menudo se usa de manera amplia, ciertas cualidades determinan si una colección de datos constituye un conjunto de datos. Generalmente, los conjuntos de datos tienen 3 características fundamentales:

  1. Variables
  2. Esquemas
  3. Metadatos

Las variables


Representan los atributos o características específicos que se estudian dentro del conjunto de datos. Por ejemplo, en un conjunto de datos de ventas, las variables pueden incluir el ID del producto, el precio y la fecha de compra. Las variables a menudo sirven como entradas para algoritmos de machine learning y análisis estadísticos.

Los esquemas


Definen la estructura de un conjunto de datos, incluidas las relaciones y la sintaxis entre sus variables. Por ejemplo, el esquema de un conjunto de datos tabular podría describir los formatos del conjunto de datos y los encabezados de columna, como "fecha", "cantidad" y "Categories". Un esquema JSON podría describir estructuras de datos anidadas, como perfiles de clientes con atributos como "nombre", "correo electrónico" y una matriz de objetos de "historial de pedidos".

Metadatos


Metadatos
 odatos sobre datos, proporcionan un contexto esencial sobre el conjunto de datos, incluyendo detalles sobre su origen, propósito y pautas de uso. Esta información ayuda a garantizar que los conjuntos de datos sigan siendo interpretables y se integren de manera efectiva con otros sistemas.

No todas las colecciones de datos califican como conjuntos de datos. Las acumulaciones aleatorias de puntos de datos no relacionados normalmente no constituyen un conjunto de datos sin una organización y estructura adecuadas para permitir un análisis significativo.

De manera similar, si bien las interfaces de programación de aplicaciones (API), las bases de datos y las hojas de cálculo pueden interactuar con conjuntos de datos o contenerlos, no son necesariamente conjuntos de datos en sí mismas.

Las API permiten que las aplicaciones se comuniquen entre sí, lo que a veces implica acceder e intercambiar conjuntos de datos. Las bases de datos y las hojas de cálculo son contenedores de información, que pueden incluir conjuntos de datos.

Tipos de conjuntos de datos

Las organizaciones generalmente trabajan con 3 tipos principales de conjuntos de datos, generalmente clasificados según el tipo de datos que manejan:

  1. Conjuntos de datos estructurados
  2. Conjuntos de datos no estructurados
  3. Conjuntos de datos semiestructurados

Las organizaciones a menudo emplean múltiples tipos de conjuntos de datos en combinación para respaldar estrategias integrales de analytics de datos. Por ejemplo, una empresa de venta minorista podría analizar datos de ventas estructurados junto con comentarios de clientes no estructurados y analytics web semiestructurados para obtener mejores insights en el comportamiento y las preferencias de los clientes.

Conjuntos de datos estructurados

Los conjuntos de datos estructurados organizan la información en formatos predefinidos, normalmente tablas con filas y columnas claramente definidas. Estos conjuntos de datos son fundamentales para muchos procesos comerciales críticos, como la gestión de relaciones con los clientes (CRM) y la gestión de inventario.

Debido a que los conjuntos de datos estructurados siguen esquemas consistentes, permiten consultas rápidas y análisis confiables. Esto los hace ideales para herramientas de business intelligence y sistemas de reportes que requieren datos precisos y cuantificables.

Algunos ejemplos comunes de conjuntos de datos estructurados son:

  • Registros financieros organizados en hojas de cálculo de Excel con campos definidos para fechas, montos y categories.
  • Bases de datos de clientes con formatos estandarizados para información de contacto e historial de compras.
  • Sistemas de inventario que rastrean cantidades, ubicaciones y movimientos de productos.
  • Flujos de datos de sensores que proporcionan métricas uniformes para el monitoreo de equipos y el mantenimiento predictivo.

Conjuntos de datos no estructurados

Los conjuntos de datos no estructurados contienen información que no se ajusta a los modelos de datos tradicionales o esquemas rígidos. Si bien estos conjuntos de datos requieren herramientas de procesamiento más sofisticadas, a menudo contienen insights que los formatos de datos estructurados no pueden capturar.

Las organizaciones confían en conjuntos de datos no estructurados para impulsar la inteligencia artificial y los modelos de machine learning. Estos conjuntos de datos proporcionan los datos diversos y del mundo real necesarios para entrenar modelos de IA y desarrollar capacidades de analytics avanzados.

Algunos ejemplos comunes de conjuntos de datos no estructurados son:

  • Documentos de texto, como correos electrónicos, reportes y sitios web.
  • Imágenes y videos utilizados para entrenar modelos de machine learning.
  • Grabaciones de audio de aplicaciones del mundo real.
  • Registros de chat y transcripciones de atención al cliente.

Conjuntos de datos semiestructurados

Los conjuntos de datos semiestructurados cierran la brecha entre los datos estructurados y no estructurados. Si bien no siguen esquemas rígidos, incorporan sintaxis o marcadores definidos para ayudar a organizar la información en formatos flexibles pero analizables.

Este enfoque híbrido hace que los conjuntos de datos semiestructurados sean valiosos para proyectos y aplicaciones modernos de integración de datos que necesitan manejar diversos tipos de datos mientras mantienen cierta estructura organizacional.

Ejemplos comunes de conjuntos de datos semiestructurados incluyen: 

  • Archivos JSON, HTML y XML utilizados en aplicaciones web y API.
  • Archivos de registro que contienen campos con formato y texto de forma libre.
  • Conjuntos de datos públicos que combinan múltiples formatos de datos para una accesibilidad más amplia.
Mixture of Experts | 12 de diciembre, episodio 85

Decodificación de la IA: Resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el revuelo de la IA para ofrecerle las últimas noticias e insights al respecto.

Fuentes de conjuntos de datos

Las organizaciones recopilan datos de múltiples fuentes para crear conjuntos de datos que respalden diversas iniciativas comerciales. Las fuentes de datos pueden determinar directamente tanto la calidad como la utilidad de los conjuntos de datos.

Estas son algunas fuentes de datos comunes:

  • Repositorios de datos
  • Databases
  • Interfaces de programación de aplicaciones (API)
  • Plataformas públicas de datos

Repositorios de datos

Los repositorios de datos son almacenes centralizados de datos. Los repositorios de datos propios suelen albergar datos confidenciales o críticos para el negocio, como registros de clientes, transacciones financieras o métricas operativas que proporcionan ventajas competitivas.

Otros repositorios de datos están disponibles públicamente. Por ejemplo, una plataforma como GitHub aloja conjuntos de datos de código abierto junto con el código. Los investigadores y las organizaciones pueden utilizar estos conjuntos de datos públicos para colaborar abiertamente en modelos de machine learning y proyectos de ciencia de datos.

Databases

Las bases de datos son repositorios de datos digitales optimizados para almacenar datos de forma segura y recuperarlos fácilmente según sea necesario.

Una base de datos puede contener un único conjunto de datos o varios conjuntos de datos. Los usuarios pueden extraer rápidamente puntos de datos relevantes ejecutando consultas de bases de datos que utilizan lenguajes especializados, como el lenguaje de consulta estructurado (SQL).

Interfaces de programación de aplicaciones (API)

Las API conectan aplicaciones de software para que puedan comunicarse. Los consumidores de datos pueden utilizar las API para capturar datos en tiempo real de fuentes conectadas, como servicios web y plataformas digitales, y canalizarlos a otras aplicaciones y repositorios para su uso.

Los científicos de datos a menudo crean canalizaciones automatizadas de recopilación de datos mediante el uso de lenguajes como Python, que ofrece bibliotecas sólidas para la integración de API y el procesamiento de datos. Por ejemplo, un sistema de analytics venta minorista podría utilizar estos pipelines automatizados para recopilar continuamente datos de compra de clientes y niveles de inventario de venta minorista en línea y sistemas de gestión de inventario.

Plataformas públicas de datos

Sitios como Data.gov e iniciativas de datos abiertos a nivel de ciudad, como New York City Open Data, brindan acceso gratuito a conjuntos de datos que incluyen métricas de atención médica, transporte y medio ambiente. Los investigadores pueden utilizar estos conjuntos de datos para estudiar todo, desde patrones de transporte hasta tendencias de estado público.

Casos de uso de conjuntos de datos

Desde potenciar la inteligencia artificial hasta permitir basados en datos insights, los conjuntos de datos son fundamentales para varias iniciativas empresariales y tecnológicas clave.

Algunas de las aplicaciones más comunes de los conjuntos de datos incluyen:

  • Inteligencia artificial (IA) y aprendizaje automático (aprendizaje automático)
  • Análisis de datos e insights
  • Business intelligence (BI)

Inteligencia artificial (IA) y aprendizaje automático (aprendizaje automático)

La inteligencia artificial (AI) tiene el potencial de ser un diferenciador crítico para muchas organizaciones.

Según el IBM Institute for Business Value, el 72 % de los directores ejecutivos (CEO) con mejor rendimiento creen que su ventaja competitiva depende de tener la IA generativa (IA gen) más avanzada. Estos sistemas de IA de vanguardia se basan en vastos conjuntos de datos, tanto etiquetados como no etiquetados, para entrenar modelos de manera efectiva.

Con datos de entrenamiento integrales, las organizaciones pueden desarrollar sistemas de AI que realicen tareas complejas, como:

Procesamiento de lenguaje natural (PLN)


Los modelos de PLN se basan en conjuntos de datos ingleses y multilingües para comprender el lenguaje humano y potenciar aplicaciones como modelos de lenguaje de gran tamaño (LLM), chatbots, servicios de traducción y herramientas de análisis de texto. Por ejemplo, un chatbot de atención al cliente puede utilizar PLN para analizar conjuntos de datos de conversaciones de soporte anteriores para aprender a responder a preguntas comunes.

Visión artificial


Mediante el uso de conjuntos de datos etiquetadas, la IA puede aprender a reconocer objetos, rostros y patrones visuales. La visión artificial ayuda a impulsar la innovación en vehículos autónomos, análisis de imágenes médicas y más. Por ejemplo, los sistemas de AI en el sector sanitario pueden analizar conjuntos de datos de escáneres médicos para detectar signos tempranos de enfermedad con gran precisión.

Análisis predictivo


El análisis predictivo se basa en conjuntos de datos estructurados para entrenar modelos para pronosticar resultados del mundo real, como los precios de la vivienda y la demanda de los consumidores. Estos modelos de regresión analizan patrones de datos históricos para hacer predicciones precisas, como analizar años de datos de ventas para predecir la demanda estacional y optimizar los niveles de inventario.

Investigación


Los sistemas de AI pueden procesar vastos conjuntos de datos de investigación para descubrir nuevos insights y acelerar la innovación. Por ejemplo, las empresas farmacéuticas pueden utilizar AI para analizar conjuntos de datos moleculares e identificar nuevos candidatos a fármacos prometedores más rápidamente que los métodos tradicionales.

Análisis de datos e insights

Los científicos de datos y analistas utilizan conjuntos de datos para extraer insights valiosos e impulsar el descubrimiento en todas las disciplinas. A medida que las organizaciones recopilan más datos que nunca, el análisis de datos se ha vuelto crucial para probar hipótesis, identificar tendencias y descubrir relaciones que informan las decisiones estratégicas.

Algunas formas comunes en que los conjuntos de datos ayudan al análisis de datos incluyen:

  • Reconocimiento de patrones: el análisis avanzado de grandes conjuntos de datos puede revelar tendencias ocultas, correlaciones y anomalías que las organizaciones pueden utilizar para identificar oportunidades y mitigar riesgos. Por ejemplo, las empresas de venta minorista podrían descubrir las tendencias de compra durante las temporadas de vacaciones analizando los datos de las transacciones.
  • Visualización de datos: las herramientas de visualización transforman conjuntos de datos complejos en insights claros y aplicables en la práctica mediante el uso de cuadros, gráficos y paneles de control para hacer que los datos sean más accesibles. Por ejemplo, una empresa podría utilizar paneles de control interactivos para mostrar tendencias en ventas e ingresos, lo que ayuda a los ejecutivos a comprender rápidamente las métricas de rendimiento y tomar decisiones informadas.
  • Análisis estadístico: al utilizar métodos estadísticos rigurosos, los científicos de datos pueden transformar conjuntos de datos brutos en insights cuantificables que ayuden a medir la importancia y validar los hallazgos. Por ejemplo, los analistas financieros podrían calcular métricas clave a partir de conjuntos de datos para evaluar el rendimiento del mercado.
  • Pruebas de hipótesis: los científicos de datos pueden utilizar conjuntos de datos experimentales para validar las teorías y evaluar las posibles soluciones, lo que proporciona un apoyo basado en la evidencia a las decisiones empresariales y de investigación. Por ejemplo, una empresa farmacéutica podría analizar los conjuntos de datos de los ensayos clínicos para determinar la eficacia de un nuevo fármaco.

Business intelligence (BI)

Las organizaciones utilizan business intelligence (BI) para descubrir insights en conjuntos de datos e impulsar la toma de decisiones en tiempo real.

Las herramientas de BI pueden ayudar a analizar varios tipos de datos para identificar tendencias, monitorear el rendimiento y descubrir nuevas oportunidades. Algunas aplicaciones incluyen:

  • Monitoreo en tiempo real: con conjuntos de datos de métricas e indicadores clave de rendimiento (KPI), las organizaciones pueden obtener una visibilidad continua de la eficiencia operativa y el rendimiento del sistema. Por ejemplo, las empresas de logística utilizan la monitorización en tiempo real durante las temporadas altas de vacaciones para rastrear los tiempos de entrega y rápidamente dirección los retrasos.
  • Análisis del comportamiento del cliente: los conjuntos de datos de transacciones y participación pueden ayudar a revelar patrones de compra y preferencias de los clientes. Las organizaciones pueden luego emplear estos conocimientos para desarrollar estrategias específicas y mejorar la experiencia del cliente en todos los puntos de contacto.
  • Análisis de series temporales: con la ayuda de conjuntos de datos secuenciales e históricos, las organizaciones pueden realizar un mejor seguimiento de las tendencias y patrones de rendimiento a lo largo del tiempo. Por ejemplo, los proveedores de energía analizan datos de series temporales para predecir y prepararse para la demanda máxima de electricidad, mejorando la confiabilidad de la red y la atención al cliente.
  • Optimización de la cadena de suministro: los conjuntos de datos integrados pueden ayudar a las organizaciones a optimizar la logística y la gestión de los proveedores. Por ejemplo, los minoristas pueden analizar los niveles de inventario, los datos de envío y las métricas de rendimiento de los proveedores para optimizar los programas de reabastecimiento y reducir los costes de transporte.

Consideraciones sobre el conjunto de datos

El manejo de conjuntos de datos grandes y complejos para cualquier iniciativa puede presentar varios desafíos y consideraciones. Algunos de los más destacados incluyen:

  • Calidad de los datos: mantener la integridad y la calidad de los conjuntos de datos es crítico. De lo contrario, datos incompletos o inexactos pueden dar lugar a resultados engañosos. Por ejemplo, un nuevo conjunto de datos con formatos inconsistentes en las columnas puede interrumpir los flujos de trabajo y sesgar el análisis. Las técnicas de validación, como la estandarización de formatos y la eliminación de duplicados, pueden ayudar a garantizar la precisión y la consistencia a medida que los conjuntos de datos escalan.
  • Interoperabilidad e integración de datos: la integración de conjuntos de datos de diferentes fuentes o formatos puede presentar desafíos, como la fusión de archivos CSV con datos JSON. La creación de un esquema unificado o la estandarización de formatos de datos puede ayudar a dirección estos desafíos y alinear las estructuras de datos para garantizar la compatibilidad del sistema.
  • Gestión de conjuntos de datos: los crecientes volúmenes de datos y la expansión de los casos de uso hacen que la gestión de conjuntos de datos sea cada vez más compleja. Priorizar procesos sólidos para la creación, el mantenimiento y el gobierno de conjuntos de datos puede ayudar a garantizar la calidad y la accesibilidad de los datos, al mismo tiempo que se mantiene el cumplimiento de las leyes y regulaciones de privacidad de datos como el Reglamento General de Protección de Datos (GDPR) y la California Consumer Privacy Act (CCPA).
Notas de pie de página

Todos los enlaces son externos a ibm.com.

Las organizaciones están evolucionando su modelo operativo de D&A debido a las tecnologías de IA, Gartner, 29 de abril de 2024. 

Soluciones relacionadas
Herramientas y soluciones de analytics

Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.

Explorar las soluciones de analytics
Servicios de consultoría en datos y analytics

Desbloquee el valor de los datos empresariales con IBM Consulting y cree una organización impulsada por insights que ofrezca ventajas empresariales.

Descubra los servicios de analytics
IBM Cognos Analytics

Presentamos Cognos Analytics 12.0: insights impulsados por IA para una mejor toma de decisiones.

Explorar Cognos Analytics
Dé el siguiente paso

Con el fin de prosperar, las empresas deben utilizar los datos para fidelizar a sus clientes, automatizar los procesos empresariales e innovar con soluciones impulsadas por IA.

Explorar las soluciones de analytics Descubra los servicios de analytics