My IBM Log in اشترك

ما هي مصفوفة الإرباك؟

19 يناير 2024

المؤلفين

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Program Manager

تساعد مصفوفة الإرباك في تقييم أداء نموذج التصنيف في التعلم الآلي من خلال مقارنة القيم المتوقعة مع القيم الفعلية لمجموعة البيانات.

تُعد مصفوفة الإرباك (أو مصفوفة الخطأ) طريقة لتصور نتائج خوارزميات التصنيف. وبشكل أكثر تحديدًا، هي جدول يُظهر عدد القيم الفعلية من فئة معينة مقابل عدد القيم المتوقعة لتلك الفئة. تُعد مصفوفات الإرباك واحدة من عدة مقاييس تقييم تُستخدم لقياس أداء نموذج التصنيف، ويمكن استخدامها لحساب عدد من المقاييس الأخرى لأداء النموذج، مثل الدقة والاستدعاء، وغيرها.

يمكن استخدام مصفوفات الإرباك مع أي خوارزمية تصنيف، مثل نموذج Naïve Bayes ونماذج الانحدار اللوجستي وأشجار القرار، وغيرها. ونظرًا لاستخدام المصفوفات على نطاق واسع في علم البيانات ونماذج التعلم الآلي، تأتي العديد من الحزم والمكتبات محملة مسبقًا بدوال لإنشاء مصفوفات الإرباك، مثل وحدة sklearn.metrics في مكتبة scikit-learn للغة Python.

تصميم ثلاثي الأبعاد لكرات تتدحرج على مسار

أحدث الأخبار والرؤى حول الذكاء الاصطناعي 


تتوفر معارف وأخبار منسقة بمهارة حول الذكاء الاصطناعي والسحابة وغيرها في نشرة Think الإخبارية الأسبوعية. 

تخطيط مصفوفة الإرباك

في مصفوفة الإرباك، تمثل الأعمدة القيم المتوقعة لفئة معينة، في حين تمثل الصفوف القيم الفعلية (أي الحقيقة الأساسية) لتلك الفئة، أو العكس. لاحظ أن الترتيب العكسي يظهر أيضًا في بعض الأبحاث. تُعد هذه البنية الشبكية أداة فعالة لتصور دقة تصنيف النموذج، حيث تعرض عدد التوقعات الصحيحة والخاطئة لجميع الفئات بجانب بعضها البعض.

قد تبدو مصفوفة الإرباك القياسية لمصنِّف ثنائي على النحو التالي:

يُظهر الصندوق العلوي الأيسر عدد القيم الإيجابية الصحيحة (TP)، وهي عدد التوقعات الصحيحة للفئة الإيجابية. أما الصندوق الموجود أسفله، فيحتوي على عدد القيم الإيجابية الخاطئة (FP)، وهي الحالات الفعلية للفئة السلبية التي تم تصنيفها بشكل خاطئ على أنها إيجابية. يُعرف هذا أيضًا باسم الأخطاء من النوع الأول (Type I errors) في الإحصاءات. ويعرض الصندوق العلوي الأيمن عدد القيم السلبية الخاطئة (FN)، وهي الحالات الإيجابية الفعلية التي تم تصنيفها بشكل خاطئ على أنها سلبية. وأخيرًا، يعرض الصندوق السفلي الأيمن عدد القيم السلبية الصحيحة (TN)، وهي الحالات الفعلية للفئة السلبية التي تم تصنيفها بشكل صحيح على أنها سلبية. ويؤدي جمع جميع هذه القيم إلى حساب إجمالي عدد التوقعات التي قام بها النموذج.1

وبالطبع، هذا القالب مخصص لمشكلة تصنيف ثنائية أساسية، لكن يمكن أيضًا استخدام مصفوفة الإرباك لتصور نتائج مشاكل التصنيف متعددة الفئات. فعلى سبيل المثال، تخيل أننا نقوم بتطوير نموذج تصنيف للأنواع كجزء من برنامج لحماية الحياة البحرية، بحيث يتنبأ النموذج بأنواع الأسماك. قد تبدو مصفوفة الإرباك لمثل هذه المشكلة متعددة الفئات على النحو التالي:

تشير جميع الصناديق القطرية إلى التوقعات الصحيحة. أما الصناديق الأخرى، فتمثل القيم الإيجابية الخاطئة، والقيم السلبية الخاطئة، والقيم السلبية الصحيحة، وذلك وفقًا للفئة التي يتم التركيز عليها.

استخدام مصفوفة الإرباك لتقييم النموذج

نظرًا لقدرتها على توفير تصور مباشر لنتائج التنبؤ الخاصة بالمُصنِّف، فإن مصفوفة الإرباك تُعد أداة مفيدة لحساب مقاييس تقييم أخرى للنموذج. حيث يمكن ببساطة استخراج القيم من المصفوفة وإدخالها في عدد من المعادلات لقياس أداء النموذج.

الدقة

لا تُعد دقة النموذج مقياسًا تقييميًا شاملًا للمُصنِّفات. فعلى سبيل المثال، تخيل أننا نشغل مُصنِّفًا على مجموعة بيانات تحتوي على 100 حالة، وتُظهر مصفوفة الإرباك الخاصة بالنموذج حالة سلبية خاطئة واحدة فقط دون أي قيم إيجابية خاطئة، في حين يتم تصنيف جميع القيم الأخرى بشكل صحيح. وبالتالي، فإن دقة النموذج تبلغ 99%. ورغم أن هذا يبدو مؤشرًا إيجابيًا، إلا أن الدقة العالية لا تعني بالضرورة أن أداء النموذج ممتاز. فعلى سبيل المثال، إذا كان نموذجنا يهدف إلى تصنيف الأمراض المعدية للغاية، فإن خطأ بنسبة 1% قد يُمثل خطرًا كبيرًا. لذلك، يمكن استخدام مقاييس تقييم أخرى لتقديم صورة أكثر دقة عن أداء خوارزمية التصنيف.

الدقة والاستدعاء

الدقة هي النسبة المئوية لتوقعات الفئة الإيجابية التي تنتمي فعليًا إلى الفئة المعنية.2 ومن الطرق الأخرى لفهم الدقة هي أنها تقيس احتمالية أن تنتمي حالة مختارة عشوائيًا إلى فئة معينة،3كما يمكن أن يُطلق على الدقة اسم قيمة التنبؤ الإيجابية (PPV)،والتي يتم تمثيلها بالمعادلة التالية:

يُشير الاستدعاء إلى النسبة المئوية لحالات الفئة التي يكتشفها النموذج.4 بعبارة أخرى، يُشير إلى نسبة التنبؤات الإيجابية لفئة معينة من بين جميع الحالات الفعلية لتلك الفئة.5 ويُعرف "الاستدعاء" أيضًا باسم الحساسية أو معدل القيم الإيجابية الصحيحة (TPR)، ويتم تمثيلها بالمعادلة التالية:

درجة F1

قد يكون هناك علاقة عكسية بين الدقة والاستدعاء في بعض الأحيان،فكلما زادت قدرة النموذج على استدعاء المزيد من الحالات الفعلية للفئة (أي القيم الإيجابية الصحيحة)، فإنه سيزيد أيضًا من تصنيف الحالات غير الفعلية (أي القيم الإيجابية الخاطئة) بشكل خاطئ، مما يؤدي إلى انخفاض الدقة؛6 فدرجة F1 تسعى إلى التوفيق بين الدقة والاستدعاء مُقدمة حلاً وسطًا لهذه المفاضلة.

تجمع درجة F1 - وتسمى أيضا F-score أو F-measure أو المتوسط التوافقي للدقة والاستدعاء- بين الدقة والاستدعاء لتمثيل الدقة الإجمالية للنموذج حسب الفئة. باستخدام هاتين القيمتين، يمكن للمرء حساب درجة F1 باستخدام المعادلة، حيث يشير P إلى الدقة (PPV) و R يشير إلى الاستدعاء (الحساسية):

تكون درجة F1 مفيدة بشكل خاص لمجموعات البيانات غير المتوازنة، حيث يمكن أن تظهر التنازل بين الدقة والاستدعاء بوضوح. فعلى سبيل المثال، لنفترض أن لدينا مُصنِّفًا يتنبأ باحتمالية الإصابة بمرض نادر. قد يكون لدى النموذج الذي يتنبأ بعدم إصابة أي شخص في مجموعة الاختبار بالمرض دقة مثالية، ولكنه يحقق استدعاءً يساوي صفرًا. وفي المقابل، فإن النموذج الذي يتنبأ بأن جميع الأفراد في مجموعة البيانات مصابون بالمرض سيحقق استدعاءً مثاليًا، ولكن بدقة تساوي نسبة الأشخاص المصابين بالمرض بالفعل (على سبيل المثال، 0.00001% إذا كان هناك شخص واحد فقط من كل عشرة ملايين مصابًا بالمرض). وتُعد درجة F1 وسيلة لتحقيق التوازن بين هاتين القيمتين للحصول على رؤية أكثر شمولية لأداء المُصنِّف.7

ينتقد بعض الباحثين استخدام درجة F1 كمقياس للأداء. فعادةً ما تدور هذه الانتقادات حول أن درجة F1 تمنح وزنًا متساويًا لكل من الدقة والاستدعاء، رغم أنهما قد لا يكونان متساويي الأهمية لجميع مجموعات البيانات.8 وفي المقابل، قدم الباحثون إصدارات معدلة من درجة F1.9

المقاييس المشروطة

تشير المقاييس المشروطة إلى معدل دقة النموذج في اكتشاف فئة معينة أو عدم اكتشافها. و"الاستدعاء"، الذي يُعرف أيضًا باسم معدل القيم الإيجابية الصحيحة (TPR) أو الحساسية، هو أحد هذه المقاييس، حيث يشير إلى نسبة التنبؤات الإيجابية للفئة من بين جميع الحالات الفعلية للفئة، في حين تكون الخصوصية (الدقة السلبية)-أو، معدل القيم السلبية الصحيحة (TNR)-هي المقياس المشروط الآخر، فهي تقيس النسبة المئوية للتنبؤات السلبية الصحيحة من بين الحالات الفعلية غير المنتمية إلى فئة معينة. يُمكن حساب الخصوصية باستخدام المعادلة التالية:10

معدل القيم الإيجابية الخاطئة

تساعد الخصوصية في حساب معدل القيم الإيجابية الخاطئة (FPR) للنموذج. تستخدم تصورات أخرى لتقييم المُصنِّف، لا سيما خصائص تشغيل المُستقبِل (ROC) والمساحة تحت المنحنى (AUC)، معدل القيم الإيجابية الخاطئة (FPR). يمثل معدل القيم الإيجابية الخاطئة (FPR) احتمال أن يقوم النموذج بتصنيف حالة غير منتمية إلى فئة معينة بشكل خاطئ كجزء من تلك الفئة. وبالتالي، كما يوحي الاسم، فإنه يعكس المعدل الذي يعيد به النموذج القيم الإيجابية الخاطئة، والمعروفة باسم الأخطاء من النوع الأول (Type I Errors) في الإحصائيات.

بينما تشير الأخطاء من النوع الأول (Type I) إلى القيم الإيجابية الخاطئة، فإن الأخطاء من النوع الثاني (Type II) تشير إلى القيم السلبية الخاطئة، أي الحالات الفعلية لفئة معينة التي تم تصنيفها بشكل خاطئ على أنها ليست جزءًا من تلك الفئة. وكما يوحي الاسم، فإن معدل القيم السلبية الخاطئة (FNR) يشير إلى احتمال أن يقوم النموذج بتصنيف حالة فعلية من فئة معينة بشكل خاطئ على أنها ليست جزءًا من تلك الفئة. فمثلما يتوافق معدل القيم الإيجابية الخاطئة (FPR) مع الخصوصية، يتوافق معدل القيم السلبية الخاطئة (FNR) مع الحساسية.

لاحظ أن معدل القيم السلبية الخاطئة (FNR) غالبًا لا يُستخدم في الدراسات، لأنه يتطلب معرفة العدد الإجمالي للحالات الفعلية لفئة معينة، وهو ما قد يظل غير معروف في مجموعات البيانات الاختبارية غير المرصودة.11

المقاييس غير المشروطة

المقاييس غير المشروطة هي تلك التي تمثل احتمالية حدوث أو عدم حدوث فئة معينة وفقًا للنموذج. فالدقة—أو قيمة التنبؤ الإيجابية (PPV)—هي أحد المقاييس غير المشروطة. وكما ذُكر، تقيس الدقة احتمالية انتماء الحالة المختارة إلى فئة معينة. أما المقياس غير المشروط الآخر، قيمة التنبؤ السلبية (NPV)، فيمثّل احتمالية عدم انتماء الحالة المختارة إلى تلك الفئة. وبشكل أساسي، يحاول كلا المقياسين غير المشروطين الإجابة على ما إذا كانت الحالة المختارة عشوائيًا ستنتمي إلى فئة معينة أم لا. ويُمكن حساب قيمة التنبؤ السلبية (NPV) باستخدام المعادلة التالية.12

Mixture of Experts | بودكاست

فك تشفير الذكاء الاصطناعي: تقرير إخباري أسبوعي

انضم إلى لجنة عالمية المستوى من المهندسين والباحثين وقادة المنتجات وغيرهم وهم يجتازون طريق الذكاء الاصطناعي لتزويدك بأحدث أخباره والمعارف المتعلقة به.

حلول ذات صلة

حلول ذات صلة

IBM watsonx.ai

تدريب الذكاء الاصطناعي التوليدي والتحقق من صحته وضبطه ونشره، وكذلك قدرات نماذج الأساس والتعلم الآلي باستخدام IBM watsonx.ai، وهو استوديو الجيل التالي من المؤسسات لمنشئي الذكاء الاصطناعي. أنشئ تطبيقات الذكاء الاصطناعي بسرعة أكبر وببيانات أقل.

اكتشف watsonx.ai
حلول الذكاء الاصطناعي

استفِد من الذكاء الاصطناعي في عملك بالاستعانة بخبرة IBM الرائدة في مجال الذكاء الاصطناعي ومحفظة حلولها التي ستكون بجانبك.

استكشف حلول الذكاء الاصطناعي
الاستشارات والخدمات المتعلقة بالذكاء الاصطناعي

أعدّ ابتكار عمليات ومهام سير العمل الحساسة بإضافة الذكاء الاصطناعي لتعزيز التجارب وصنع القرارات في الوقت الفعلي والقيمة التجارية.

استكشف خدمات الذكاء الاصطناعي
اتخِذ الخطوة التالية

احصل على وصول شامل إلى القدرات التي تغطي دورة حياة تطوير الذكاء الاصطناعي. توصَّل إلى حلول ذكاء اصطناعي قوية باستخدام واجهات سهلة الاستخدام وتدفقات سير عمل سلسة وإمكانية الوصول إلى واجهات برمجة التطبيقات ومجموعات تطوير البرمجيات وفق معايير الصناعة (SDKs).

استكشف watsonx.ai احجز عرضًا توضيحيًا مباشرًا
الحواشي

1 Kai Ming Ting, “Confusion matrix,” Encyclopedia of Machine Learning and Data Mining, Springer, 2018.

2 Ethan Zhang and Yi Zhang, “Precision,” Encyclopedia of Database Systems, Springer, 2018.

3 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

4 Ethan Zhang and Yi Zhang, “Recall,” Encyclopedia of Database Systems, Springer, 2018.

5 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

6 Ben Carterette, “Precision and Recall,” Encyclopedia of Database Systems, Springer, 2018.

7 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/. Kevin Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012.

8 David Hand and Peter Christen, "A note on using the F-measure for evaluating record linkage algorithms," Statistics and Computing, Vol. 28, 2018, pp. 539–547,https://link.springer.com/article/10.1007/s11222-017-9746-6 .

9 David Hand, Peter Christen, and Nishadi Kirielle, "F*: an interpretable transformation of the F-measure," Machine Learning, Vol. 110, 2021, pp. 451 456, https://link.springer.com/article/10.1007/s10994-021-05964-1 . Davide Chicco and Giuseppe Jurman, "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation," BMC Genomics, Vol. 21, 2020,https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-019-6413-7.

10 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.

11 Allen Downey, Think Stats, 2nd edition, O’Reilly, 2014.

12 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.