Inicio topics ¿Qué es el análisis exploratorio de datos? ¿Qué es el análisis exploratorio de datos (EDA)?
Explore la solución EDA de IBM Suscríbase para recibir actualizaciones de IA
Ilustración con collage de pictogramas de nubes, gráfico circular, pictogramas gráficos
¿Qué es EDA?

Los científicos de datos utilizan el análisis de datos exploratorios (EDA) para analizar e investigar conjuntos de datos y resumir sus características principales, a menudo empleando métodos de visualización de datos.

EDA ayuda a determinar la mejor manera de manipular las fuentes de datos para obtener las respuestas que necesita, lo que facilita a los científicos de datos descubrir patrones, detectar anomalías, poner a prueba una hipótesis o verificar suposiciones.

EDA se utiliza principalmente para ver qué datos se pueden revelar más allá de la tarea formal de modelado o de la prueba de hipótesis y proporciona una mejor comprensión de las variables del conjunto de datos y las relaciones entre ellas. También puede ayudar a determinar si las técnicas estadísticas que usted está considerando para el análisis de datos son adecuadas. Desarrolladas originalmente por el matemático estadounidense John Tukey en la década de 1970, las técnicas EDA siguen siendo un método ampliamente utilizado en el proceso de descubrimiento de datos en la actualidad.

Una guía para líderes de datos

Aprenda cómo aprovechar las bases de datos adecuadas para aplicaciones, análisis e IA generativa.

Contenido relacionado

Regístrese para obtener el libro electrónico sobre IA generativa

¿Por qué es importante el análisis exploratorio de datos en la ciencia de datos?

El objetivo principal del EDA es ayudar a analizar los datos  antes de hacer suposiciones. Puede ayudar a identificar errores obvios, así como a comprender mejor los patrones dentro de los datos, detectar valores atípicos o eventos anómalos y encontrar relaciones interesantes entre las variables.

Los científicos de datos pueden utilizar el análisis exploratorio para garantizar que los resultados que producen sean válidos y aplicables a los resultados y objetivos de negocio deseados. EDA también ayuda a los stakeholders mediante la confirmación de que están haciendo las preguntas correctas. El EDA puede ayudar a responder preguntas sobre desviaciones estándar, variables categóricas e intervalos de confianza. Una vez que el EDA está completo y se obtienen los insights, sus características se pueden usar para un análisis o modelado de datos más sofisticado, incluyendo el machine learning.

Herramientas de análisis exploratorio de datos

Entre las funciones y técnicas estadísticas específicas que se pueden realizar con las herramientas EDA se incluyen:

  • Técnicas de agrupamiento y reducción de dimensiones, que ayudan a crear visualizaciones gráficas de datos de alta dimensión con muchas variables.
  • Visualización univariante de cada campo del conjunto de datos sin procesar, con estadísticas de resumen.
  • Visualizaciones bivariantes y estadísticas de resumen que le permiten evaluar la relación entre cada variable del conjunto de datos y la variable de destino que está viendo.
  • Visualizaciones multivariadas, para mapear y comprender las interacciones entre diferentes campos de los datos.
  • K-means Clustering es un método de agrupamiento en el aprendizaje no supervisado en el que los puntos de datos se asignan a grupos K, es decir, el número de clústeres, en función de la distancia desde el centroide de cada grupo. Los puntos de datos más cercanos a un centroide en particular se agruparán en la misma categoría. K-means Clustering se utiliza comúnmente en la segmentación del mercado, el reconocimiento de patrones y la compresión de imágenes.
  • Los modelos predictivos, como la regresión lineal, utilizan estadísticas y datos para predecir resultados.
Tipos de análisis exploratorio de datos

Hay cuatro tipos principales de EDA:

  • Univariante no gráfica. Se trata de la forma más sencilla de análisis de datos, en la que los datos analizados constan de una sola variable. Al tratarse de una única variable, no se ocupa de las causas ni de las relaciones. El objetivo principal del análisis univariante es describir los datos y encontrar patrones que existan en ellos.
  • Gráfico univariante. Los métodos no gráficos no proporcionan una imagen completa de los datos. Por lo tanto, se requieren métodos gráficos. Los tipos comunes de gráficos univariantes incluyen:
    • Diagramas de tallo y hojas, que muestran todos los valores de los datos y la forma de la distribución.
    • Histogramas, un gráfico de barras en el que cada barra representa la frecuencia (recuento) o la proporción (recuento/recuento total) de casos de un rango de valores.
    • Diagramas de caja, que representan gráficamente el resumen de cinco números de mínimo, primer cuartil, mediana, tercer cuartil y máximo.
  • Multivariante no gráfica: los datos multivariantes surgen de más de una variable. Las técnicas AED multivariantes no gráficas suelen mostrar la relación entre dos o más variables de los datos mediante tabulaciones cruzadas o estadísticas.
  • Gráfico multivariante: Los datos multivariante utilizan gráficos para mostrar las relaciones entre dos o más conjuntos de datos. El gráfico más utilizado es un diagrama de barras agrupadas o gráfico de barras en el que cada grupo representa un nivel de una de las variables y cada barra dentro de un grupo representa los niveles de la otra variable.

Otros tipos comunes de gráficos multivariantes incluyen:

  • Diagrama de dispersión, que se utiliza para trazar puntos de datos en un eje horizontal y vertical para mostrar cuánto afecta una variable a otra.
  • Gráfico multivariante, que es una representación gráfica de las relaciones entre los factores y una respuesta.
  • Gráfico de ejecución, que es un gráfico de líneas de datos trazados a lo largo del tiempo.
  • Gráfico de burbujas, que es una visualización de datos que muestra múltiples círculos (burbujas) en una gráfica bidimensional.
  • Mapa de calor, que es una representación gráfica de datos en la que los valores se representan por color.
Herramientas de análisis exploratorio de datos

Algunas de las herramientas de ciencia de datos más comunes utilizadas para crear una EDA incluyen:

  • Python: un lenguaje de programación interpretado, orientado a objetos y con semántica dinámica. Sus estructuras de datos integradas de alto nivel, combinadas con la tipificación dinámica y la vinculación dinámica, lo hacen muy atractivo para el desarrollo rápido de aplicaciones, así como para su uso como lenguaje de programación o aglutinante para conectar componentes existentes entre sí. Python y EDA pueden utilizarse conjuntamente para identificar los valores faltantes en un conjunto de datos, lo que es importante para poder decidir cómo tratar esos valores faltantes para el aprendizaje automático.
  • R: lenguaje de programación de código abierto y entorno de software gratuito para computación estadística y gráficos respaldado por R Foundation for Statistical Computing. El lenguaje R se utiliza ampliamente entre los estadísticos de la ciencia de datos para desarrollar observaciones estadísticas y análisis de datos.

Para profundizar en las diferencias entre estos enfoques, consulte "Pythonfrente a R: ¿Cuál es ladiferencia?"

Soluciones relacionadas
IBM Watson Studio

Utilice IBM Watson® Studio para determinar si las técnicas estadísticas que está considerando para el análisis de datos son apropiadas.

Explore IBM Watson Studio hoy mismo
Recursos Avances en análisis exploratorio de datos, visualización y calidad para sistemas de IA centrados en datos

Aprenda la importancia y el papel de EDA y las técnicas de visualización de datos para encontrar problemas de calidad de datos y para la preparación de datos, que es relevante para la construcción de pipelines de aprendizaje automático (ML).

Análisis exploratorio de datos para el aprendizaje automático

Aprenda técnicas comunes para recuperar sus datos, limpiarlos, aplicar ingeniería de características y tenerlos listos para el análisis preliminar y las pruebas de hipótesis.

Dé el siguiente paso

Entrene, valide, ajuste y despliegue IA generativa, modelos fundacionales y capacidades de aprendizaje automático con IBM® watsonx.ai, un estudio empresarial de próxima generación para creadores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai Reserve una demostración en vivo