C5.0 ノード

注 : この機能は SPSS® Modeler Professional および SPSS Modeler Premium で使用できます。

このノードでは、C5.0 アルゴリズムを使用して、ディシジョンツリーまたはルールセットを作成します。C5.0 モデルは、最大の情報の対応をもたらすフィールドに基づいてサンプルを分割します。最初の分割によって定義された各サブサンプルは、異なるフィールドに基づいて再度分割されます。サブサンプルをこれ以上分割できなくなるまで、この過程が繰り返されます。最終的に、最下位レベルの分割が再検証され、モデルの値にほとんど寄与しないレベルが削除 (剪定) されます。

注 : C5.0 ノードは、カテゴリー対象のみ予測できます。カテゴリー型 (名義型または順序型) フィールドを含むデータを分析する場合、ノードはリリース 11.0 以前の C5.0 バージョンよりもカテゴリーをグループ化します。

C5.0 では、2 種類のモデルを生成できます。ディシジョンツリーは、アルゴリズムによって検出された分割の詳細を表しています。各ターミナル (「葉」ノード) は、学習データの特定のサブセットを表します。学習データの各ケースは、ディシジョン・ツリーの 1 つのターミナル・ノードだけに属します。つまり A ディシジョン・ツリーに存在する特定のデータ・レコードに対しては、1 つの予測だけが可能です。

これとは対照的に、ルールセットは、各レコードに対して予測を試みる複数のルールをセットにしたものです。ルール・セットは、ディシジョン・ツリーから派生したもので、ディシジョン・ツリーで検索された情報を単純化または凝縮したものと言うことができます。ルール・セットは、より単純なモデルでありながら、ディシジョン・ツリー全体からの重要な情報のほとんどを保持できます。ルール・セットとディシジョン・ツリーでは機能が異なるため、属性も異なります。最大の違いは、ルール・セットでは、特定のレコードに複数のルールが適用されることもあれば、ルールがまったく適用されないこともある点です。複数のルールを適用する場合、各ルールに対して、そのルールに関連付けられた確信度に基づいて重み付けされた「票決」が行われ、最終的な予測は、対象レコードに適用するすべてのルールの重み付き票を組み合わせて決定されます。適用するルールがない場合、デフォルトの予測がレコードに割り当てられます。

例: ある医学研究者が、同じ病気に悩む患者に関するデータを収集しています。治療過程において、それぞれの患者に対して 5 種類の薬品の中のいずれかで効果がありました。他のノードとともに、C5.0 モデルを使用して、同じ疾病に苦しむ将来の患者のために適切な薬剤を見つけることができます。

要件: C5.0 モデルを学習するには、1 つのカテゴリー型 (名義型または順序型)「対象」フィールドと、任意のタイプの 1 つ以上の「入力」フィールドが必要です。両方またはなしが設定されているフィールドは無視されます。モデルで使用するフィールド・タイプは、完全にインスタンス化する必要があります。重みフィールドも指定できます。

利点: C5.0 モデルは、欠損データや大量の入力フィールドがあるような状況で役立ちます。通常、推定に長い学習時間を必要としません。また、C5.0 モデルから派生したルールは非常に解釈しやすいので、他のモデルよりわかりやすいという利点があります。さらに、C5.0 では、分類の精度を向上するための強力なブースティング手法を利用できます。

注 : C5.0 モデルの構築では、並行処理を有効にすると有利になる可能性があります。