データの準備の概要
データの準備は、データ・マイニングの最も重要かつ時間がかかることの多い側面の一つです。 実際、データの準備には、プロジェクトの時間および作業の 50% から 70% が通常かかると見積もられます。初期フェーズであるビジネスの理解およびデータの理解に十分なエネルギーを投入すれば、このオーバーヘッドを最小限に抑えることができますが、それでも、マイニング対象データの準備およびパッケージングには、相当な労力を費やす必要があります。
組織とその目標にもよりますが、通常、データの準備では、以下のタスクを実行する必要があります。
- データ・セットおよびレコード (またはそのいずれか) の結合
- サンプルのデータ・サブセットの選択
- レコードの集計
- 新規属性の派生
- モデリング対象データのソート
- ブランクまたは欠損値の削除または置換
- 学習データ・セットおよびテスト・データ・セットへの分割