レコード設定ノードは、レコード レベルでデータを変更するために使用されます。これらの操作は、特定のビジネス・ニーズに合わせてデータを調整できるので、データ・マイニングのデータの理解およびデータの準備フェーズ中に重要です。
例えば、データ検査ノード (出力パレット) を使用したデータ検査の結果に基づいて、過去 3 カ月の顧客購入レコードを結合するように決定できます。レコード結合ノードを使用して、Customer ID (顧客 ID) などのキー・フィールドの値を基準にしてレコードを結合できます。または、Web サイトのアクセス件数に関する情報を含むデータベースに 100 万件以上のデータが蓄積されていて管理不能になっていることもあります。その場合、サンプリング・ノードを使用して、モデリング用のデータのサブセットを選択することもできます。
「レコード設定」パレットには、次のノードがあります。
|
|
条件抽出ノードで、特定の条件に基づいて、データ・ストリームからレコードのサブセットを選択したり破棄したりできます。例えば、特定の営業地域に関連するレコードを選択できます。 |
|
|
サンプリング・ノードでは、レコードのサブセットを選択します。層化サンプル、クラスター・サンプル、非無作為 (構造化) サンプルなど、さまざまなサンプルの種類がサポートされています。サンプリングは、パフォーマンスの向上、および分析のための関連するレコードまたはトランザクションのグループの選択に役に立ちます。 |
|
|
バランス・ノードで、データ・セットが指定した条件に合うように、データ・セットの不均衡を修正します。バランス式で、指定した比率によって条件が真 (true) の場合に、レコードの比率を調整します。 |
|
|
レコード集計ノードで、一連の入力レコードを要約集計された出力レコードに置き換えます。 |
|
|
リーセンシ、フリクエンシ、マネタリー (RFM) のレコード集計ノードを使用すると、顧客の過去のトランザクション・データを取得、未使用のデータを削除、残りのトランザクション・データをすべて単一行に結合することができます。これにより、最後のトランザクションの時期、トランザクション数、これらのトランザクションの合計金額が一覧表示されます。
|
|
|
ソート・ノードで、1 つまたは複数のフィールド値に基づいて、レコードを昇順または降順にソートします。 |
|
|
レコード結合ノードは、複数の入力レコードを取得し、入力フィールドの全部または一部を含む 1 つの出力レコードを作成します。この機能は、内部顧客データと購入人口データのような、異なるソースからのデータを結合する場合に役立ちます。 |
|
|
レコード追加ノードで、レコードのセットを連結します。レコード追加ノードは、構造が似ていながらデータが異なるデータ・セットを組み合せる場合に役立ちます。 |
|
|
重複レコード・ノードで、重複レコードを削除します。その場合、最初の重複するレコードをデータ・ストリームに渡すか、または、最初のレコードを破棄して、その後の重複レコードをデータ・ストリームに渡します。 |
|
|
ストリーミング時系列分析ノードは、1 つのステップで時系列モデルを作成してスコアリングします。ローカル環境または分散環境のどちらのデータでもこのノードを使用できます。分散環境の場合、IBM® SPSS® Analytic Server の機能を活用できます。 |
|
|
スペクトル クラスタリング アルゴリズムでは、複数の固有ベクトルを使用してデータを次元の低い空間に投影します。次に、その新しい空間で k-means クラスタリング アルゴリズムを適用して、データを複数のクラスターに分離します。このアルゴリズムは、多数のフィールドが含まれている小規模なレコードでは十分に高速ですが、大規模なデータセットでは計算コストが高くなります。SPSS Modeler のスペクトル クラスタリング ノードは、スペクトル クラスタリング ライブラリーのコア機能およびよく使用されるパラメーターを公開しています。このノードは Python で実装されています。 |
|
|
スペース・タイム・ボックス (STB) は、Geohash の空間的な場所を拡張したものです。具体的には、STB は英数字の文字列で、空間および時間を規則的に分割した領域です。 |
|
|
ストリーミング TCM ノードは、1 つのステップで時間的因果モデルを作成してスコアリングします。 |
|
|
CPLEX の最適化ノードにより、OPL (Optimization Programming Language) モデル・ファイルを介した複雑な数学 (CPLEX) ベースの最適化の機能が提供されます。この機能は、IBM Analytical Decision Management 製品で使用できましたが、もうサポートされていません。ただし、IBM Analytical Decision Management を必要とせずに SPSS Modeler でも CPLEX ノードを使用できます。 |
「レコード設定」パレットの多くのノードでは、CLEM 式を使用する必要があります。CLEM に精通している場合は、フィールドに式を入力できます。ただし、すべての式フィールドには CLEM 式ビルダーを開くボタンが用意されていて、これを使用すると、自動的に式が作成されるようになります。
図 1. 「Clem 式ビルダー」ボタン