数据科学家使用探索性数据分析 (EDA) 来分析和研究数据集并总结其主要特征,通常采用数据可视化方法。
EDA 有助于确定如何以最佳方式操纵数据源,以获得所需的答案,使数据科学家能够更轻松地找到模式、发现异常、检验或检查假设。
EDA 主要用于查看数据在形式建模或假设任务之外能够提示的内容,并提供对数据集变量及其之间关系的更好理解。它还可以帮助确定您正在考虑用于数据分析的统计技术是否合适。EDA 技术最初由美国数学家 John Tukey 于 20 世纪 70 年代开发,至今仍是数据发现过程中广泛使用的方法。
了解如何将正确的数据库用于应用、分析和生成式 AI。
立即注册,获取有关生成式 AI 的电子书
EDA 旨在做出任何假设之前帮助查看数据。它可以帮助识别明显的错误,更好地理解数据中的模式,检测异常值或异常事件,并找到变量之间的有趣关系。
数据科学家可以使用探索性分析来确保他们生成的结果在任何所需的业务成果和目标上均有效且适用。EDA 还可以通过确认利益相关者提出的问题是否正确为其提供帮助。EDA 可以帮助回答有关标准偏差、分类变量和置信区间的问题。一旦完成 EDA 数据分析并得出洞察分析,其功能便可用于更复杂的数据分析或建模,包括机器学习。
您可以使用 EDA 工具执行的特定统计功能和技术,包括:
EDA 主要有四种类型:
多变量图形的其他常见类型包括:
用于创建 EDA 的一些最常见的数据科学工具包括:
要深入了解这些方法之间的区别,请查看“Python 与 R:有哪些区别?”