Inicio Topics análisis exploratorio de datos ¿Qué es el análisis exploratorio de datos (EDA)?
Explore la solución EDA de IBM Suscríbase para conocer lo último en IA
Ilustración con collage de pictogramas de nubes, gráfico circular, pictogramas gráficos sobre
¿Qué es EDA?

El análisis exploratorio de datos (EDA) es utilizado por los científicos de datos para analizar e investigar conjuntos de datos y resumir sus características principales, a menudo empleando métodos de visualización de datos.

EDA ayuda a determinar la mejor manera de manipular las fuentes de datos para obtener las respuestas que necesita, lo que facilita a los científicos de datos descubrir patrones, detectar anomalías, probar una hipótesis o verificar suposiciones.

EDA se utiliza principalmente para ver lo que los datos pueden revelar más allá del modelado formal o la tarea de prueba de hipótesis y proporciona una mejor comprensión de las variables del conjunto de datos y las relaciones entre ellas. También puede ayudar a determinar si las técnicas estadísticas que está considerando para el análisis de datos son adecuadas. Desarrolladas originalmente por el matemático estadounidense John Tukey en la década de 1970, las técnicas EDA siguen siendo un método ampliamente utilizado en el proceso de descubrimiento de datos en la actualidad.

Guía para líderes de datos

Aprenda a aprovechar las bases de datos adecuadas para aplicaciones, análisis e IA generativa.

Contenido relacionado

Regístrese para recibir el libro electrónico sobre IA generativa

¿Por qué es importante el análisis exploratorio de datos en la ciencia de datos?

El objetivo principal de EDA es ayudar a analizar los datos antes de hacer suposiciones. Puede ayudar a identificar errores obvios, así como a comprender mejor los patrones dentro de los datos, detectar valores atípicos o eventos anómalos y encontrar relaciones interesantes entre las variables.

Los científicos de datos pueden utilizar el análisis exploratorio para garantizar que los resultados que producen sean válidos y aplicables a los resultados y objetivos empresariales deseados. EDA también ayuda a las partes interesadas al confirmar que están haciendo las preguntas correctas. EDA puede ayudar a responder preguntas sobre las desviaciones estándar, las variables categóricas y los intervalos de confianza. Una vez que se complete el EDA y se extraigan los conocimientos, sus funciones se pueden utilizar para un análisis o modelado de datos más sofisticados, incluido el machine learning.

Herramientas de análisis de datos exploratorios

Entre las funciones y técnicas estadísticas específicas que puede realizar con las herramientas EDA se incluyen las siguientes:

  • Técnicas de clustering y reducción de dimensiones, que ayudan a crear visualizaciones gráficas de datos de alta dimensión que contienen muchas variables.
  • Visualización univariante de cada campo del conjunto de datos sin procesar, con estadísticas de resumen.
  • Visualizaciones bivariantes y estadísticas de resumen que le permiten evaluar la relación entre cada variable del conjunto de datos y la variable de destino que está viendo.
  • Visualizaciones multivariantes, para mapear y comprender las interacciones entre los diferentes campos de los datos.
  • K-medias es un método de clustering en el aprendizaje no supervisado donde los puntos de datos se asignan a grupos K, es decir, el número de clústeres, basado en la distancia desde el centroide de cada grupo. Los puntos de datos más cercanos a un centroide determinado se agruparán en la misma categoría. K-medias se utiliza comúnmente en la segmentación de mercados, el reconocimiento de patrones y la compresión de imágenes.
  • Los modelos predictivos, como la regresión lineal, utilizan estadísticas y datos para predecir resultados.
Tipos de análisis exploratorio de datos

Hay cuatro tipos principales de EDA:

  • Univariante no gráfico. Es la forma más simple de análisis de datos, donde los datos que se analizan consisten en una sola variable. Dado que es una sola variable, no se ocupa de causas o relaciones. El objetivo principal del análisis univariado es describir los datos y encontrar patrones dentro de ellos.
  • Univariante gráfico. Los métodos no gráficos no proporcionan una imagen completa de los datos. Por lo tanto, se requieren métodos gráficos. Entre los tipos comunes de gráficos univariantes se incluyen los siguientes:
    • Diagramas de tallos y hojas, que muestran todos los valores de los datos y la forma de la distribución.
    • Histogramas, un gráfico de barras en el que cada barra representa la frecuencia (recuento) o proporción (recuento/recuento total) de casos para un rango de valores.
    • Diagramas de caja, que representan gráficamente el resumen de cinco números, que son el mínimo, el primer cuartil, la mediana, el tercer cuartil y el máximo.
  • Multivariante no gráfico: los datos multivariantes surgen de más de una variable. Las técnicas de EDA multivariante no gráfico generalmente muestran la relación entre dos o más variables de los datos a través de tabulación cruzada o estadística.
  • Multivariante gráfico: los datos multivariantes utilizan gráficos para mostrar relaciones entre dos o más conjuntos de datos. El gráfico más utilizado es un diagrama de barras agrupado o un gráfico de barras en el que cada grupo representa un nivel de una de las variables y cada barra dentro de un grupo representa los niveles de la otra variable.

Otros tipos comunes de gráficos multivariante incluyen:

  • Diagrama de dispersión, que se utiliza para trazar puntos de datos en un eje horizontal y vertical para mostrar cuánto se ve afectada una variable por otra.
  • Gráfico multivariante, que es una representación gráfica de las relaciones entre los factores y una respuesta.
  • Gráfico de ejecución, que es un gráfico lineal de datos trazados a lo largo del tiempo.
  • Gráfico de burbujas, que es una visualización de datos que muestra múltiples círculos (burbujas) en un gráfico bidimensional.
  • Mapa de calor, que es una representación gráfica de los datos en la que los valores se representan por color.
Herramientas de análisis exploratorio de datos

Estas son algunas de las herramientas de ciencia de datos más comunes que se utilizan para crear un EDA:

  • Python: lenguaje de programación interpretado, orientado a objetos y con semántica dinámica. Sus estructuras de datos integradas de alto nivel, combinadas con la tipificación dinámica y el enlace dinámico, lo hacen muy atractivo para el desarrollo rápido de aplicaciones, así como para su uso como lenguaje de scripting o pegamento para conectar componentes existentes entre sí. Python y EDA se pueden usar juntos para identificar los valores que faltan en un conjunto de datos, lo cual es importante para que pueda decidir cómo manejar los valores que faltan para el machine learning.
  • R: lenguaje de programación de código abierto y entorno de software libre para la computación estadística y los gráficos respaldado por la R Foundation for Statistical Computing. El lenguaje R se utiliza ampliamente entre los estadísticos en la ciencia de datos para desarrollar observaciones estadísticas y análisis de datos.

Para profundizar en las diferencias entre estos enfoques, consulte "Diferencia entre Python y R"

Soluciones relacionadas
IBM Watson Studio

Utilice IBM Watson Studio para determinar si las técnicas estadísticas que está considerando para el análisis de datos son adecuadas.

Explore IBM Watson Studio hoy mismo
Recursos Avances en el análisis exploratorio de datos, la visualización y la calidad de los sistemas de IA centrados en los datos

Conozca la importancia y el papel de las técnicas de EDA y visualización de datos para encontrar problemas de calidad de los datos y para la preparación de datos, relevantes para la creación de canalizaciones de ML.

Análisis exploratorio de datos para el machine learning

Aprenda técnicas comunes para recuperar sus datos, limpiarlos, aplicar ingeniería de funciones y tenerlos listos para análisis preliminares y pruebas de hipótesis.

Dé el siguiente paso

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para constructores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai Solicite una demostración en directo