レコード設定の概要

レコード設定ノードは、レコード レベルでデータを変更するために使用されます。これらの操作は、特定のビジネス・ニーズに合わせてデータを調整できるので、データ・マイニングのデータの理解およびデータの準備フェーズ中に重要です。

例えば、データ検査ノード (出力パレット) を使用したデータ検査の結果に基づいて、過去 3 カ月の顧客購入レコードを結合するように決定できます。レコード結合ノードを使用して、Customer ID (顧客 ID) などのキー・フィールドの値を基準にしてレコードを結合できます。または、Web サイトのアクセス件数に関する情報を含むデータベースに 100 万件以上のデータが蓄積されていて管理不能になっていることもあります。その場合、サンプリング・ノードを使用して、モデリング用のデータのサブセットを選択することもできます。

「レコード設定」パレットには、次のノードがあります。

条件抽出ノードで、特定の条件に基づいて、データ・ストリームからレコードのサブセットを選択したり破棄したりできます。例えば、特定の営業地域に関連するレコードを選択できます。
サンプリング・ノードでは、レコードのサブセットを選択します。層化サンプル、クラスター・サンプル、非無作為 (構造化) サンプルなど、さまざまなサンプルの種類がサポートされています。サンプリングは、パフォーマンスの向上、および分析のための関連するレコードまたはトランザクションのグループの選択に役に立ちます。
バランス・ノードで、データ・セットが指定した条件に合うように、データ・セットの不均衡を修正します。バランス式で、指定した比率によって条件が真 (true) の場合に、レコードの比率を調整します。
レコード集計ノードで、一連の入力レコードを要約集計された出力レコードに置き換えます。
リーセンシ、フリクエンシ、マネタリー (RFM) のレコード集計ノードを使用すると、顧客の過去のトランザクション・データを取得、未使用のデータを削除、残りのトランザクション・データをすべて単一行に結合することができます。これにより、最後のトランザクションの時期、トランザクション数、これらのトランザクションの合計金額が一覧表示されます。
ソート・ノードで、1 つまたは複数のフィールド値に基づいて、レコードを昇順または降順にソートします。
レコード結合ノードは、複数の入力レコードを取得し、入力フィールドの全部または一部を含む 1 つの出力レコードを作成します。この機能は、内部顧客データと購入人口データのような、異なるソースからのデータを結合する場合に役立ちます。
レコード追加ノードで、レコードのセットを連結します。レコード追加ノードは、構造が似ていながらデータが異なるデータ・セットを組み合せる場合に役立ちます。
重複レコード・ノードで、重複レコードを削除します。その場合、最初の重複するレコードをデータ・ストリームに渡すか、または、最初のレコードを破棄して、その後の重複レコードをデータ・ストリームに渡します。
ストリーミング時系列分析ノードは、1 つのステップで時系列モデルを作成してスコアリングします。ローカル環境または分散環境のどちらのデータでもこのノードを使用できます。分散環境の場合、IBM® SPSS® Analytic Server の機能を活用できます。
スペクトル クラスタリング アルゴリズムでは、複数の固有ベクトルを使用してデータを次元の低い空間に投影します。次に、その新しい空間で k-means クラスタリング アルゴリズムを適用して、データを複数のクラスターに分離します。このアルゴリズムは、多数のフィールドが含まれている小規模なレコードでは十分に高速ですが、大規模なデータセットでは計算コストが高くなります。SPSS Modeler のスペクトル クラスタリング ノードは、スペクトル クラスタリング ライブラリーのコア機能およびよく使用されるパラメーターを公開しています。このノードは Python で実装されています。
スペース・タイム・ボックス (STB) は、Geohash の空間的な場所を拡張したものです。具体的には、STB は英数字の文字列で、空間および時間を規則的に分割した領域です。
ストリーミング TCM ノードは、1 つのステップで時間的因果モデルを作成してスコアリングします。
CPLEX の最適化ノードにより、OPL (Optimization Programming Language) モデル・ファイルを介した複雑な数学 (CPLEX) ベースの最適化の機能が提供されます。この機能は、IBM Analytical Decision Management 製品で使用できましたが、もうサポートされていません。ただし、IBM Analytical Decision Management を必要とせずに SPSS Modeler でも CPLEX ノードを使用できます。

「レコード設定」パレットの多くのノードでは、CLEM 式を使用する必要があります。CLEM に精通している場合は、フィールドに式を入力できます。ただし、すべての式フィールドには CLEM 式ビルダーを開くボタンが用意されていて、これを使用すると、自動的に式が作成されるようになります。

図 1. 「Clem 式ビルダー」ボタン
「Clem 式ビルダー」ボタン