變異數分析 (ANOVA)
變異數分析(或 ANOVA)是用於評估欄位間關係的線性建模方法。 對於關鍵動因,以及與若干圖表相關的見解,ANOVA 會測試平均目標值是否因一個輸入種類或兩個輸入種類組合不同而有所不同。
若要測試平均值是否不同,ANOVA 檢定會將解釋變異數(由輸入欄位所造成)與未解釋變異數(由錯誤來源所造成)進行比較。 如果解釋變異數與未解釋變異數的比例偏高,則平均值有統計差異。
IBM® Cognos Analytics 可以計算單向 ANOVA 測試 (有一個輸入) 和雙向 ANOVA 測試 (有兩個輸入)。 如果是連續輸入,則會對輸入進行 Bin 處理,以建立可使用 ANOVA 檢定以比較其目標平均值的群組。 單向 ANOVA 檢定是 T 檢定的延伸,但 ANOVA 檢定可以比較任意數的平均值。 T 檢定只能比較兩個平均值。
雖然 ANOVA 檢定會顯示平均值之間的統計差異,但不會指出哪些平均值不同。 IBM Cognos Analytics 視覺化見解特性會報告群組,這些群組會導致平均值與有意義的差異不同。
單向 ANOVA
單向 ANOVA 檢定使用 F 值。 下列程序說明如何計算 F 值:
- 計算連續欄位的整體平均值。
- 計算種類欄位的均方(解釋變異數)。
- 計算種類欄位的平方和。
- 對於每個種類,從種類的平均值減去整體平均值。
- 取得每個結果的平方,並將它們加在一起。
- 將種類欄位的平方和除以適當的自由度。
- 計算種類欄位的平方和。
- 計算錯誤來源的均方(未解釋的變異數)。
- 計算錯誤來源的平方和。
- 在每個種類內,從每個記錄值減去種類的平均值。
- 取得每個差異的平方,並將它們加在一起。
- 將錯誤來源的平方和除以適當的自由度。
- 計算錯誤來源的平方和。
- 將種類欄位的均方除以錯誤來源的均方。 換言之,即計算解釋變異數與未解釋變異數的比例。 這是 F 值。
F 值會與理論 F 分佈進行比較,以判定有機會得到 F 值的機率。
- 此機率為顯著性值。
- 如果顯著性值小於顯著水準,則平均值為顯著差異。
調整過的 R2 用來預估模型預測強度。 顯著水準設為 5%,模型預測強度必須大於 10%,才能指出目標與輸入欄位之間的可靠預測關係。
對單向關鍵動因及圖表(顯示種類欄位的各種類間的平均數值測量)的見解報告預測強度。
雙向 ANOVA
類似單向 ANOVA,雙向 ANOVA 檢定會計算 F 值。 它用來測試完整雙向模型中的平均值是否有顯著差異。 此程序與單向 ANOVA 類似,除了是使用兩個種類欄位作為輸入而非使用單一種類欄位。 對於種類欄位中的每個種類組合,計算平均值與平方和統計資料。
調整過的 R2 也用來預估模型預測強度。 顯著水準設為 5%,並且模型預測強度必須大於 10% 才會將模型列入考量。 此外,雙向模型對於巢狀單向模型的預測強度必須至少具有 10% 的相對改進,才能指示目標與兩個輸入欄位之間的可靠預測關係。 相對改善的計算方式是 100% 與巢狀單向模型的預測強度之間差異的百分比。
對雙向關鍵動因及圖表(顯示兩個種類欄位的各種類間的平均數值測量)的見解報告預測強度。