使用可靠性測量來分析評分者間一致性

國際奧林匹克委員會 (IOC) 在回應媒體批評時，希望測試透過 IOC 計劃訓練的法官所給予的分數是否「可靠」; 也就是說，雖然兩位法官所給予的精確分數可能不同，但良好表現的分數高於一般表現，而一般表現的分數則高於不良表現。

您可以使用組內相關係數或 ICC ¹來測試此可能性。它是一種 ANOVA 類型模型，其中裁判的分數是回應。選擇適當的模型可能需要一些思考。首先，您必須考量變異的來源。其中一個來源是效能，您可以假設這是來自大量效能儲存區的隨機樣本。另一個來源是法官，您可以假設他們是來自大量受過訓練的法官的隨機樣本。因此，您應該使用雙向隨機效應模型。如果這組法官在某種程度上是獨一無二的，且不能被視為更大的法官組合的一部分，則您應該使用雙向混合效果模型。如果您不知道哪個法官給出了哪些分數，則必須使用單向隨機效應模型。

此外，您只是假設法官具有類似的評分模式，因此您將檢查一致性，而不是絕對同意。如果 IOC 法規更嚴格，且如果成功訓練需要相同的 (而非類似的) 評分模式，則您會以絕對同意的方式查看雙向隨機模型。

想想看，國際奧委會已經要求 7 名訓練有素的法官獲得 300 場比賽的成績。此資訊在 judges.sav中收集。如需相關資訊，請參閱主題範例檔案。使用「可靠性分析」來測量其分數之間的一致程度。

下一個

¹ McGraw， K. O. ，和黃士培 1996. Forming inferences about some intraclass correlation coefficients. 心理方法， 1: 1 ， 30-46。