主页 topics 什么是探索性数据分析? 什么是探索性数据分析 (EDA)?
深入了解 IBM 的 EDA 解决方案 订阅 AI 最新消息
包含云朵、饼图、象征符号图形的拼贴插图
什么是 EDA?

数据科学家使用探索性数据分析 (EDA) 来分析和研究数据集并总结其主要特征,通常采用数据可视化方法。

EDA 有助于确定如何以最佳方式操纵数据源,以获得所需的答案,使数据科学家能够更轻松地找到模式、发现异常、检验或检查假设。

EDA 主要用于查看数据在形式建模或假设任务之外能够提示的内容,并提供对数据集变量及其之间关系的更好理解。它还可以帮助确定您正在考虑用于数据分析的统计技术是否合适。EDA 技术最初由美国数学家 John Tukey 于 20 世纪 70 年代开发,至今仍是数据发现过程中广泛使用的方法。

数据领导者指南

了解如何将正确的数据库用于应用、分析和生成式 AI。

相关内容

立即注册,获取有关生成式 AI 的电子书

为什么探索性数据分析在数据科学中很重要?

EDA 旨在做出任何假设之前帮助查看数据。它可以帮助识别明显的错误,更好地理解数据中的模式,检测异常值或异常事件,并找到变量之间的有趣关系。

数据科学家可以使用探索性分析来确保他们生成的结果在任何所需的业务成果和目标上均有效且适用。EDA 还可以通过确认利益相关者提出的问题是否正确为其提供帮助。EDA 可以帮助回答有关标准偏差、分类变量和置信区间的问题。一旦完成 EDA 数据分析并得出洞察分析,其功能便可用于更复杂的数据分析或建模,包括机器学习

探索性数据分析工具

您可以使用 EDA 工具执行的特定统计功能和技术,包括:

  • 聚类和降维技术,有助于创建包含许多变量的高维数据的图形显示。
  • 对原始数据集中每个字段进行单变量可视化,并提供摘要统计。
  • 双变量可视化和摘要统计,允许您评估数据集中每个变量与您所关注的目标变量之间的关系。
  • 多变量可视化,用于映射和理解数据中不同字段之间的交互。
  • K-means 聚类是无监督学习中的一种聚类方法,其中根据与每个组质心的距离,将数据点分配到 K 组中,即聚类的数量。距离特定质心最近的数据点将聚类到同一类别下。K-means 聚类通常用于市场细分、模式识别和图像压缩。
  • 线性回归等预测模型使用统计学和数据来预测结果。
探索性数据分析的类型

EDA 主要有四种类型:

  • 单变量非图形。这是最简单的数据分析形式,其中所分析的数据仅包含一个变量。由于它只涉及一个变量,因此不涉及原因或关系。单变量分析旨在描述数据并找出其中存在的模式。
  • 单变量图形。非图形方法无法提供数据的全貌。因此需要图形方法。常见的单变量图形类型包括:
    • 茎叶图,显示所有数据值和分布的形状。
    • 直方图是一种条形图,其中每个条形代表一定数值范围内案例的频率(计数)或比例(计数/总计数)。
    • 箱线图,以图形方式描呈现最小值、第一个四分位数、中位数、第三个四分位数和最大值的五个数字摘要。
  • 多变量非图形:多变量数据源自多个变量。多变量非图形 EDA 技术通常通过交叉制表或统计来显示数据的两个或多个变量之间的关系。
  • 多变量图形:多变量数据使用图形显示两组或多组数据之间的关系。最常用的图形是分组条形图或柱状图,其中每组代表一个变量的一个水平,组内的每个条形代表另一个变量的水平。

多变量图形的其他常见类型包括:

  • 散点图,用于在横轴和纵轴上绘制数据点,以显示一个变量受另一个变量影响的程度。
  • 多变量图表,以图形表示因素与应响之间的关系。
  • 运行图,即随时间绘制的数据折线图。
  • 气泡图是一种数据可视化,在二维图中显示多个圆圈(气泡)。
  • 热图是数据的图形表示形式,其中数值由颜色表示。
探索性数据分析工具

用于创建 EDA 的一些最常见的数据科学工具包括:

  • Python:一种解释型、面向对象的动态语义编程语言。其高级、内置数据结构与动态类型和动态绑定相结合,使其非常适用于快速应用程序开发,以及用作脚本或粘合语言将现有组件连接在一起。Python 和 EDA 相结合用于识别数据集中的缺失值,这很重要,因此您可以决定如何处理机器学习的缺失值。
  • R:一种开源编程语言和免费统计计算和图形软件环境,由 R 统计计算基金会提供支持。R 语言在数据科学中广泛使用,统计学家将其用于开发统计观察和数据分析。

要深入了解这些方法之间的区别,请查看“Python 与 R:有哪些区别?

相关解决方案
IBM Watson® Studio

使用 IBM® Watson Studio 确定您正在考虑的用于数据分析的统计技术是否合适。

立即探索 IBM Watson Studio
资源 以数据为中心的 AI 系统中探索性数据分析、可视化和质量方面的进展

了解 EDA 和数据可视化技术的重要性和作用,以发现数据质量问题,并准备与构建 ML 管道相关的数据。

面向机器学习的探索性数据分析

了解与检索数据、清理数据、应用特征工程以及为初步分析和假设检验做准备相关的常用技术。

采取后续步骤

使用面向 AI 构建器的新一代企业级开发平台 IBM watsonx.ai,可以训练、验证、调整和部署生成式 AI、基础模型和机器学习功能。使用一小部分数据,即可在很短的时间内构建 AI 应用程序。

深入了解 watsonx.ai 预约实时演示