使用可靠性測量來分析評分者間一致性

國際奧林匹克委員會 (IOC) 在回應媒體批評時,希望測試透過 IOC 計劃訓練的法官所給予的分數是否「可靠」; 也就是說,雖然兩位法官所給予的精確分數可能不同,但良好表現的分數高於一般表現,而一般表現的分數則高於不良表現。

您可以使用組內相關係數或 ICC 1來測試此可能性。 它是一種 ANOVA 類型模型,其中裁判的分數是回應。 選擇適當的模型可能需要一些思考。 首先,您必須考量變異的來源。 其中一個來源是效能,您可以假設這是來自大量效能儲存區的隨機樣本。 另一個來源是法官,您可以假設他們是來自大量受過訓練的法官的隨機樣本。 因此,您應該使用雙向隨機效應模型。 如果這組法官在某種程度上是獨一無二的,且不能被視為更大的法官組合的一部分,則您應該使用雙向混合效果模型。 如果您不知道哪個法官給出了哪些分數,則必須使用單向隨機效應模型。

此外,您只是假設法官具有類似的評分模式,因此您將檢查一致性,而不是絕對同意。 如果 IOC 法規更嚴格,且如果成功訓練需要相同的 (而非類似的) 評分模式,則您會以絕對同意的方式查看雙向隨機模型。

想想看,國際奧委會已經要求 7 名訓練有素的法官獲得 300 場比賽的成績。 此資訊在 judges.sav中收集。 如需相關資訊,請參閱主題 範例檔案 。 使用「可靠性分析」來測量其分數之間的一致程度。

下一個

1 McGraw, K. O. , 和黃士培 1996. Forming inferences about some intraclass correlation coefficients. 心理方法, 1: 1 , 30-46。