予測変数の重要度

通常、モデリングの作業を最も重要な予測フィールドに集中させ、最も重要性の低い予測フィールドを削除または無視したいと考えます。予測値の重要度グラフを使用すると、モデル推定時に各予測値の相対重要度を示して、これを実現できます。値が相対的であるため、表示されるすべての予測の値の合計は 1.0 となります。予測値の重要度はモデルの精度に関連しません。予測が正確かどうかではなく、予測時の各予測値の重要度にのみ関連します。

予測変数の重要度は、重要度の適切な統計的尺度を生成するモデルで使用することができます。そのようなモデルには、ニューラル・ネットワーク、ディシジョン・ツリー (C&R Tree、C5.0、CHAID、および QUEST)、Bayesian Network (ベイズ)、判別分析、SVM、SLRM モデル、線型回帰、ロジスティック回帰、一般化線型モデル、および最近傍 (KNN) モデルがあります。これらの多くのモデルについて、予測変数の重要度モデル作成ノードの「分析」タブで有効にできます。詳しくは、モデル作成ノードの分析オプションのトピックを参照してください。KNN モデルの詳細は、近傍を参照してください。

: 予測変数の重要度は、分割モデルにサポートされていません。分割モデルの作成時、予測変数の重要度の設定は無視されます。詳しくは、分割モデルの作成のトピックを参照してください。

予測変数の重要度の計算には、特に大きなデータセットを使用する場合、モデル構築よりもずっと長い時間がかかることがあります。SVM およびロジスティック回帰の場合、他のモデルに比べて時間がかかるため、これらのモデルではデフォルトで無効になっています。多数の予測値を使用した データセットを使用する場合、変数選択ノードを使用した最初のスクリーニングでより速くなる可能性があります (下記を参照)。

  • 予測変数の重要度は、テスト・データ区分から計算されます (可能な場合)。そうでなければ、学習データが使用されます。
  • SLRM モデルでも予測変数の重要度は使用できますが、SLRM アルゴリズムによって計算されます。 詳しくは、SLRM モデル・ナゲットのトピックを参照してください。
  • IBM® SPSS® Modeler のグラフ ツールを使用して、グラフを対話的に処理、編集、保存できます。
  • オプションで、予測変数の重要度グラフ内の情報を基にフィルター・ノードを生成することもできます。 詳しくは、重要度を基にした変数のフィルタリングのトピックを参照してください。

予測変数の重要度と特徴量選択

モデル・ナゲットに表示される予測変数の重要度グラフは、特徴量選択ノードと同様の結果を生成するように思われるかもしれません。特徴量選択は各入力フィールドを選択された対象との関係の強さに基づいて、他の入力値とは独立してランク付けする一方、予測変数の重要度グラフはこの 特定のモデルに関する各入力値の相対的な重要度を示します。そのため、特徴量選択は入力値のスクリーニングにおいて、より保守的です。例えば、役職仕事のカテゴリーがどちらも給料と密接に関係している場合、特徴量選択では両方ともが重要であると示されます。しかし、モデル作成においては、相互作用と相関も考慮されます。そのため、2 つの入力値の情報が重複する場合は、そのうちの 1 つだけが使用されることに気づかれるでしょう。実際には、特徴量選択は、数多くの変数がある大きなデータセットの処理での予備的スクリーニングに最も便利で、予測変数の重要度はモデルの微調整により便利です。

単一モデルと自動化モデル作成ノードとの間の予測変数の重要度の違い

個別のノードから単一モデルを作成するか、自動化モデル作成ノードを作成して結果を生成するかによって、予測変数の重要度に微細な違いがある場合があります。このような実装での違いは、いくつかの技術的な制約事項によるものです。

例えば、CHAID などの単一の分類子を使用すると、重要度の値を計算するときに、計算に停止規則が適用され、確率値が使用されます。一方、自動分類子は停止規則を使用せず、計算で予測ラベルを直接使用します。これらの違いにより、自動分類を使用して単一モデルを生成すると、重要度の値は、単一の分類子で計算されたものに比べて、おおまかな推定と考えられる可能性があります。最も正確な予測変数の重要度を取得するためには、自動化モデル作成ノードの代わりに単一ノードを使用することをお勧めします。