分散分析 (ANOVA)
分散分析 (ANOVA) は、フィールド間の関係を評価するための線形モデル作成メソッドです。 キー・ドライバー、および多数のグラフに関連する洞察の場合に、平均目標値が、1 つの入力のカテゴリーまたは 2 つの入力のカテゴリーの組み合わせによって変化するかどうかを分散分析によって検定します。
平均値が異なるかどうかを検定するために、分散分析検定では、説明がつく分散 (入力フィールドが原因となる) と説明がつかない分散 (エラー・ソースが原因となる) が比較されます。 説明がつく分散の、説明がつかない分散に対する比率が高い場合、平均値は統計的に異なります。
IBM® Cognos Analytics は、一元配置分散分析検定 (1 つの入力を使用) と二元配置分散分析検定 (2 つの入力を使用) を計算できます。 入力が連続している場合、入力はグループ作成のためにビン分割され、グループの目標平均値が分散分析検定によって比較可能になります。 一元配置分散分析検定は t 検定の拡張ですが、分散分析検定では任意の数の平均値を比較できます。 t 検定で比較できるのは 2 つの平均値のみです。
分散分析検定では平均値間の統計的差異が示されますが、どの平均値が異なるかは示されません。 IBM Cognos Analytics 視覚化の洞察機能は、意味のある差異として平均値が異なる原因となっているグループを報告します。
一元配置分散分析
一元配置分散分析検定では、F 値が使用されます。 以下の手順では、F 値の計算方法を示しています。
- 連続フィールドの全体の平均値を計算します。
- カテゴリー・フィールドの平均二乗 (説明がつく分散) を計算します。
- カテゴリー・フィールドの二乗の合計を計算します。
- カテゴリーごとに、カテゴリーの平均値から全体の平均値を減算します。
- これらの結果ごとの二乗を取り、それらを加算します。
- カテゴリー・フィールドの二乗の合計を適切な自由度で除算します。
- カテゴリー・フィールドの二乗の合計を計算します。
- エラー・ソースの平均二乗 (説明がつかない分散) を計算します。
- エラー・ソースの二乗の合計を計算します。
- カテゴリーごとに、各レコードの値からカテゴリーの平均値を減算します。
- 差異ごとの二乗を取り、それらを加算します。
- エラー・ソースの二乗の合計を適切な自由度で除算します。
- エラー・ソースの二乗の合計を計算します。
- カテゴリー・フィールドの平均二乗をエラー・ソースの平均二乗で除算します。 つまり、説明がつかない分散に対する説明がつく分散の比率を計算します。 これが F 値です。
F 値を理論的な F 分布と比較することで、その F 値が偶然に得られる確率が求められます。
- この確率が有意確率です。
- この有意確率が有意水準よりも小さい場合、平均値は有意に異なっています。
調整済み R2 は、モデル予測強度の評価に使用されます。 有意水準を 5% に設定し、モデル予測強度は、目標と入力フィールドの間の信頼性の高い予測関係を示すために 10% より大きくなければなりません。
予測強度は、一元配置キー・ドライバー、およびカテゴリー・フィールドのカテゴリー全体にわたる数値データの平均を表示するグラフの洞察のために報告されます。
二元配置分散分析
一元配置分散分析と同様に、二元配置分散分析検定では、F 値が計算されます。 これは、完全な二元配置モデルの平均値が有意に異なるかどうかを検定するために使用されます。 手順は一元配置分散分析と似ていますが、単一のカテゴリー・フィールドではなく、2 つのカテゴリー・フィールドが入力として使用されます。 平均値と、二乗統計値合計が、カテゴリー・フィールドのカテゴリーの組み合わせごとに計算されます。
調整済み R2 も、モデル予測強度の評価に使用されます。 有意水準を 5% に設定し、モデル予測強度は、モデルが考慮されるために 10% より大きくなければなりません。 また、二元配置モデルは、目標と 2 つの入力フィールドの間の信頼性の高い予測関係を示すために、ネストされた一元配置モデルの予測強度よりも 10% 以上相対的に改善されている必要があります。 相対改善は、100% と、ネストされた一元配置モデルの予測強度との間の差異の割合として計算されます。
予測強度は、二元配置キー・ドライバー、および 2 つのカテゴリー・フィールドのカテゴリー全体にわたる数値データの平均を表示するグラフの洞察のために報告されます。