多重線形回帰

多重線形回帰モデルとは、連続する目的変数 1 つと複数の予測変数の間の関係を評価するための汎用的な統計モデルです。

予測変数は、連続フィールド、カテゴリー・フィールド、または派生フィールドにできるので、非線形関係もサポートされます。 このモデルは、予測変数に推定係数を掛けた項の加算で構成されるため、線形です。 一般には、定数 (切片) 項もモデルに追加されます。

線形回帰は、目的変数として指定するフィールドと、予測変数として指定するフィールドの少なくとも 2 つの連続フィールドを含むグラフから洞察を得るために使用します。 さらに、カテゴリー予測変数フィールド 1 つと補助連続フィールド 2 つをグラフに指定して、適切な回帰モデルを生成できます。 候補モデルごとに、 IBM® Cognos Analytics はモデルの有意性の F 検定を実行します。

モデルの適合と検定

多重線形モデルは次の手順で適合されます。

  1. 回帰モデルのデータ行ごとに 1 行、パラメーターごとに 1 列が含まれる計画行列を作成します。 列は予測変数または予測変数カテゴリーに対応します。
  2. 回帰係数を計算します。
    1. 転置した計画行列にそれ自身を乗算します。
    2. 転置した計画行列に目的変数の値のベクトルを乗算します。
    3. 手順 a の行列の逆数に手順 b の行例を乗算します。

得られた回帰係数を使用して、各データ行の目的変数の予測値を計算します。 目的変数の予測値と観測値の差を、残差と呼びます。 そして、モデルの有意性を検定するために、次のように F 検定を行います。

  1. エラー・ソースの平均二乗 (説明がつかない分散) を計算します。
    1. 残差の二乗の合計を計算します。
      1. 各残差の平方を求め、それらを加算します。
    2. 誤差原因の二乗の合計を適切な自由度で除算します。
  2. 回帰モデル (説明がつく分散) の平均二乗を計算します。
    1. モデルの二乗の合計を計算します。
      1. 行ごとに、目的変数の予測値から全体の平均値を減算します。
      2. これらの結果ごとの二乗を取り、それらを加算します。
    2. 回帰モデルの二乗の合計を適切な自由度で除算します。
  3. 回帰モデルの平均二乗を誤差原因の平均二乗で除算します。 つまり、説明がつかない分散に対する説明がつく分散の比率を計算します。 この比率が F 値です。

F 値を理論的な F 分布と比較することで、その F 値が偶然に得られる確率が求められます。

  • この確率が有意確率です。
  • この有意確率が有意水準よりも小さい場合、平均値は有意に異なっています。
回帰モデルの予測変数の強度を推定するために、補正 R2 が使用されます。 目的変数フィールドと入力フィールドの間の信頼性の高い予測関係を示すためには、有意水準が 5% に設定され、かつ、モデルの予測変数の強度が 10% を超える必要があります。

モデルの選択

モデルの選択手順は、カテゴリー予測変数が存在するかどうかによって異なります。 連続予測変数だけを指定した場合は、次の 3 つのモデルが考慮されます。

  1. 常に全体の平均を予測する定数モデル。
  2. 単一の予測変数が定数に追加された線形モデル。
  3. 線形モデルに二乗予測変数が追加された 2 次モデル。

2 次モデルは、それが有意であり、予測変数の強度が線形モデルと比較して 10% 以上向上する場合に選択されます。 選択された場合は、モデルの予測変数強度と一緒に 2 次適合線が報告されます。

選択されなかった場合は、線形モデルが選択されます (線形モデルが定数モデルと比較して同じ条件を満たしている場合)。 これが選択された場合、モデルの予測変数強度と一緒に線形適合線が報告されます。

上記のモデルがいずれも選択されない場合。 全体の平均値が報告され、目的変数フィールドと入力フィールドの間に予測関係は報告されません。

カテゴリー予測変数が存在する場合、最大 8 つの異なるモデルが考慮されるため、選択プロセスはより複雑になります。 有意で、かつ、最初にネストされたモデルと比べて十分な向上が見られる最も複雑なモデルが選択されるので、選択手順は前の手順と似ています。

選択されたモデルの予測変数強度と一緒に、モデルやカテゴリー予測変数 (選択した場合) のカテゴリー数に応じた適切な適合線が報告されます。 カテゴリー予測変数のカテゴリー数は、表示される適合線の数を減らすために 3 に制限されます。