遺漏值分析

您可以利用「遺漏值分析」程序,來執行下列三個主要功能:

  • 說明遺漏資料的形式。 遺漏值位在何處? 範圍有多大? 成對的變數是否易於在多個觀察值中出現遺漏值? 資料值是否極端? 遺漏值是否隨機?
  • 不同遺漏值方法的估計平均數、標準差、共變數和相關性:完全排除、成對、迴歸或 EM (expectation-maximization)。 其中,成對法會將成對完成觀察值的個數,加以顯示出來。
  • 使用迴歸或 EM 方法,以估計值填入(插補)遺漏值;不過,一般認為多重插補可提供更精確的結果。

當資料不完整時,您就可以利用遺漏值分析,來提出因資料不完整,所造成的種種影響。 如果有遺漏值的觀察值在系統上與沒有遺漏值的觀察值不同,則結果可能令人誤解。 再者,如果遺漏資料,可能會因為資訊少於原先計劃,而降低統計量的精確度。 另外還有一個考量就是,許多統計程序的假設基礎,都是建構在完整的觀察值上面的,因此,如果有遺漏值的話,可能就需要使用更複雜的理論。

範例。 在評估血友病的治療結果時,我們會同時評量數個變數。 不過,並非每位患者都可以使用每一種測量。 所以,我們會顯示遺漏值的形式,製成一覽表,並且發現它們是隨機的。 然後再使用 EM 分析功能,來估計平均數、相關和共變異數。 它也用來確定資料是隨機完全遺漏。 或者,也可以用填入值來取代遺漏值,並將之存入新資料檔中,以供進一步分析。

統計資料。 就單變數統計量而言,它包括:非遺漏值個數、平均數、標準差、遺漏值個數,以及極端數值個數。 若使用完全排除、成對、EM 或迴歸等方法,則可得到估計平均數、共變異數矩陣,以及相關性矩陣。 有 EM 結果的 Little's MCAR 檢定。 不同方法的平均數總和。 對於用「遺漏值對非遺漏值」所定義的組別而言:t 檢定。 對所有的變數:遺漏值形式顯示出變數觀察值。

資料考量

資料。 您所用的資料,可以是類別或數值(比例或連續)。 不過,您可估計統計量並只為定量變數插補遺漏資料。 但對每個變數而言,如果遺漏值沒有被編碼成系統遺漏值的話,則必須被定義為使用者遺漏值。 舉例來說,若問卷項目中的 Don't know 回應值編碼為 5,而且您又想將其視為遺漏值,則此項目就應該將 5 編碼成使用者遺漏值。 如需相關資訊,請參閱主題 遺漏值

次數加權。 此程序允許次數(重複)加權。 具有負或零重複加權值的觀察值會被忽略。 系統會截斷非整數加權。

假設。 完全排除、配對和迴歸估計是根據遺漏值形式不依賴資料值的假設。 (該條件就是「隨機完全遺漏」或 MCAR)。 所以,當資料是 MCAR 時,所有用來估計的方法(包含 EM 方法)對相關值與共變異數都能得到一致而不偏的估計值。 違反 MCAR 假設會導致由完全排除、配對和迴歸方法所產生的偏差估計值。 如果資料不是 MCAR,您應使用 EM 估計值。

EM 估計是依據遺漏值形式只和觀察資料有關的假設。 (此條件稱為隨機失踪,或 MAR。) 此假設可使用可用的資訊來調整估計值。 例如,在教育程度與收入的研究中,教育程度低的受試者可能有較多的遺漏收入值。 在這種情況下,資料是 MAR,而非 MCAR。 換句話說,收入會被記錄的機率取決於受試者的教育程度。 這個機率會因教育程度而改變,但不會因「該教育程度」的收入而變。 如果記錄收入的機率也因每一個教育程度內的收入價值而改變(例如,高收入的人不報告他們),那麼這些資料既不是 MCAR,也不是 MAR。 這並非不尋常的情況,但如果適用,則任何方法都不適當。

相關程序。 有許多程序可讓您使用完全排除估計或成對估計。 像「線性迴歸」和「因素分析」,就讓您用平均值來置換遺漏值。 此外,「預測附加程式模組」也提供數種方式,讓您置換時間序列中的遺漏值。

取得遺漏值分析

此功能需要「遺漏值分析」選項。

  1. 從功能表中選擇:

    分析 > 遺漏值分析 ...

  2. 至少選擇一個數值(尺度)變數以估計統計量和隨意選擇插補遺漏值。

您可以選擇性地:

  • 選取類別變數(數字或字串),然後輸入類別個數的上限(最大類別)。
  • 按一下「形式」將遺漏資料的形式列表。 如需相關資訊,請參閱主題 顯示遺漏值型樣
  • 按一下「敘述性統計量」來顯示遺漏值的敘述性統計量。 如需相關資訊,請參閱 顯示遺漏值的敘述性統計量 主題。
  • 選取一個方法來估計統計量 (平均數、共變異數與相關) 與可能的插補遺漏值。 如需相關資訊,請參閱主題 估計統計量和插補遺漏值
  • 如果您選取「EM 或迴歸」,請按一下「 變數 」以指定要用於估計的子集。 如需相關資訊,請參閱主題 預測及預測變數
  • 選取一個觀察值標籤變數。 此變數用來在顯示個別觀察值的形式表中標示觀察值。