ホーム topics 探索的データ分析とは 探索的データ分析(EDA)とは
IBMのEDAソリューションはこちら AI関連の最新情報を購読する
以下のクラウド、円グラフ、グラフのピクトグラムのコラージュを使用したイラスト
EDAとは

探索的データ分析(EDA)とは、データサイエンティストがデータセットを分析・調査して、その主な特徴をまとめる際に用いるもので、多くの場合、データの可視化手法を使用しています。

EDAは、必要な答えを得るためにデータ・ソースを操作する最適な方法を決定する際に役立つため、データサイエンティストはパターンの発見、異常の特定、仮説の検証、仮定の確認を容易に行うことができます。

EDAは主に、形式的モデル化や仮説検証のタスクを超えて、データから何を明らかにできるのかを確認するために使用され、データ・セットの変数とそれらの関係をより深く理解できるようにします。 また、データ分析に向けて検討している統計的手法が適切かどうかを判断するのにも役立ちます。 EDAの手法は、元々1970年代にアメリカの数学者John Tukey氏によって開発されたものですが、現在でもデータ検出プロセスで広く使われている手法です。

データ・リーダー向けのガイド

アプリケーション、分析、生成AIのために適切なデータベースを活用する方法について説明します。

関連コンテンツ

生成AIに関する電子ブックに登録する

データサイエンスで探索的データ分析が重要な理由

EDAの主な目的は、仮定を行う前にデータを確認できるようにすることです。明らかなエラーを特定するだけでなく、データ内のパターンをより深く理解し、外れ値や異常なイベントを検知して、変数間の興味深い関係を見つけることもできます。

データサイエンティストがこの探索的分析を使用すると、自分たちが出した結果が妥当で、望ましいビジネスの成果や目標に適用できることを確認できます。 EDAはまた、利害関係者がしている質問が適切かどうかを確認することで、利害関係者を支援します。 EDAは、標準偏差、カテゴリ変数、信頼区間に関する質問に答えるのに役立ちます。 EDAが完了してインサイトが得られると、その機能を活用して、機械学習を含む、より高度なデータ分析やモデリングを行うことができます。

探索的データ分析ツール

EDAツールで実行できる具体的な統計関数と手法には、以下のようなものがあります。

  • クラスタリングおよび次元削減手法。これは多くの変数を含む高次元データをグラフィカルに表示するのに役立ちます。
  • 生データ・セットの各フィールドの単変量可視化と要約統計量。
  • 二変量可視化と要約統計量:データ・セット内の各変数と調査対象の変数との関係を評価できます。
  • 多変量可視化:データ内の異なるフィールド間の相互作用をマッピングして理解できます。
  • K平均法は、教師なし学習におけるクラスタリング手法で、各グループの重心からの距離に基づいて、データ・ポイントをK個のグループ、つまりクラスタ数に割り当てます。 特定の重心に最も近いデータ・ポイントは、同じカテゴリの下にクラスタリングされます。 k平均法は、市場セグメンテーション、パターン認識、および画像圧縮などでよく使われます。
  • 線形回帰などの予測モデルは、統計とデータを使用して結果を予測します。
探索的データ分析の種類

EDAには、主に4つの種類があります。

  • 単変量非グラフィカル。 これはデータ分析の中で最も単純な形式で、分析対象のデータは1つの変数のみで構成されます。 これは単一変数であるため、原因や関係性は扱いません。 単変量分析の主な目的は、データを記述し、その中に存在するパターンを見つけることです。
  • 単変量グラフィカル。 非グラフィカルな方法では、データの全体像は把握できません。 そのため、グラフィカルな手法が必要になります。 一般的な単変量グラフィックスには、以下の種類があります。
    • 幹葉図:すべてのデータ値と分布の形状を示します。
    • ヒストグラム:各棒グラフがある値の範囲に対するケースの頻度(数)または割合(数/合計数)を表す棒グラフです。
    • 箱ひげ図:最小値、第1四分位値、中央値、第3四分位値、最大値の5つの数値の要約をグラフで表します。
  • 多変量非グラフィカル:多変量データは複数の変数から生成されます。 多変量非グラフィカルのEDA手法では、一般的にクロス集計や統計によってデータの2つ以上の変数間の関係を示します。
  • 多変量グラフィカル:多変量データは、2つ以上のデータ・セット間の関係を表示するためにグラフィックを使用します。 最もよく使われるグラフィックは、グループ化された棒グラフまたは横棒グラフで、各グループは変数の1つの水準を表し、グループ内の各棒は他の変数の水準を表します。

その他のよく使われる多変量グラフィックスの種類には、以下のようなものがあります。

  • 散布図:データ・ポイントを横軸と縦軸にプロットするもので、ある変数が別の変数によってどの程度影響を受けるかを示すために使用されます。
  • 多変量管理図:因子と回答の関係をグラフで表したものです。
  • ランチャート:データを経時的にプロットした折れ線グラフです。
  • バブルチャート:2次元プロットに複数の円(バブル)を表示するデータの可視化です。
  • ヒートマップ:値が色で描かれるデータのグラフィック表現です。
探索的データ分析ツール

EDAの作成に使用される最も一般的なデータサイエンス・ツールには、以下のようなものがあります。

  • Python:動的セマンティクスを持つインタプリタ型のオブジェクト指向プログラミング言語。 この言語が持つ高レベルの組み込みデータ構造と、動的型付けと動的バインディングの組み合わせにより、迅速なアプリケーション開発だけでなく、既存のコンポーネントを接続するためのスクリプト言語またはグルー言語として使用するのにも非常に魅力的です。 PythonとEDAを併用すると、データ・セット内の欠損値を特定できます。これは、機械学習で欠損値を処理する方法を決定するために重要です。
  • R:R Foundation for Statistical Computing(統計コンピューティングのためのR財団)によってサポートされているオープンソースのプログラミング言語および統計コンピューティングとグラフィックスに対応するフリーソフトウェア環境。 R言語は、統計的観測やデータ分析の開発において、データサイエンスの統計学者の間で広く使用されています。

これらのアプローチの違いについては、「PythonとRの違い」をご覧ください。

関連ソリューション
IBM Watson Studio

IBM Watson Studioを使用して、データ分析に向けて検討している統計的手法が適切かどうかを判断します。

今すぐIBM Watson Studioを試す
参考情報 データ処理を中心としたAIシステムの探索的データ分析、可視化、品質の進歩

MLパイプラインの構築に関連するデータ品質の問題を発見し、データを準備するためのEDAとデータの可視化手法の重要性と役割を説明します。

機械学習のための探索的データ分析

データの取得、データのクレンジング、特徴量エンジニアリングの適用、および予備分析と仮説検証の準備を整える際によく用いられる手法を説明します。

次のステップ

AI開発者向けの次世代エンタープライズ・スタジオであるIBM watsonx.aiを使用して、生成AI、基盤モデル、機械学習機能をトレーニング、検証、チューニング、デプロイしましょう。わずかなデータ、わずかな時間でAIアプリケーションを構築できます。

watsonx.aiの詳細はこちら デモを予約