تساعد مصفوفة الإرباك في تقييم أداء نموذج التصنيف في التعلم الآلي من خلال مقارنة القيم المتوقعة مع القيم الفعلية لمجموعة البيانات.
تُعد مصفوفة الإرباك (أو مصفوفة الخطأ) طريقة لتصور نتائج خوارزميات التصنيف. وبشكل أكثر تحديدًا، هي جدول يُظهر عدد القيم الفعلية من فئة معينة مقابل عدد القيم المتوقعة لتلك الفئة. تُعد مصفوفات الإرباك واحدة من عدة مقاييس تقييم تُستخدم لقياس أداء نموذج التصنيف، ويمكن استخدامها لحساب عدد من المقاييس الأخرى لأداء النموذج، مثل الدقة والاستدعاء، وغيرها.
يمكن استخدام مصفوفات الإرباك مع أي خوارزمية تصنيف، مثل نموذج Naïve Bayes ونماذج الانحدار اللوجستي وأشجار القرار، وغيرها. ونظرًا لاستخدام المصفوفات على نطاق واسع في علم البيانات ونماذج التعلم الآلي، تأتي العديد من الحزم والمكتبات محملة مسبقًا بدوال لإنشاء مصفوفات الإرباك، مثل وحدة sklearn.metrics في مكتبة scikit-learn للغة Python.
في مصفوفة الإرباك، تمثل الأعمدة القيم المتوقعة لفئة معينة، في حين تمثل الصفوف القيم الفعلية (أي الحقيقة الأساسية) لتلك الفئة، أو العكس. لاحظ أن الترتيب العكسي يظهر أيضًا في بعض الأبحاث. تُعد هذه البنية الشبكية أداة فعالة لتصور دقة تصنيف النموذج، حيث تعرض عدد التوقعات الصحيحة والخاطئة لجميع الفئات بجانب بعضها البعض.
قد تبدو مصفوفة الإرباك القياسية لمصنِّف ثنائي على النحو التالي:
يُظهر الصندوق العلوي الأيسر عدد القيم الإيجابية الصحيحة (TP)، وهي عدد التوقعات الصحيحة للفئة الإيجابية. أما الصندوق الموجود أسفله، فيحتوي على عدد القيم الإيجابية الخاطئة (FP)، وهي الحالات الفعلية للفئة السلبية التي تم تصنيفها بشكل خاطئ على أنها إيجابية. يُعرف هذا أيضًا باسم الأخطاء من النوع الأول (Type I errors) في الإحصاءات. ويعرض الصندوق العلوي الأيمن عدد القيم السلبية الخاطئة (FN)، وهي الحالات الإيجابية الفعلية التي تم تصنيفها بشكل خاطئ على أنها سلبية. وأخيرًا، يعرض الصندوق السفلي الأيمن عدد القيم السلبية الصحيحة (TN)، وهي الحالات الفعلية للفئة السلبية التي تم تصنيفها بشكل صحيح على أنها سلبية. ويؤدي جمع جميع هذه القيم إلى حساب إجمالي عدد التوقعات التي قام بها النموذج.1
وبالطبع، هذا القالب مخصص لمشكلة تصنيف ثنائية أساسية، لكن يمكن أيضًا استخدام مصفوفة الإرباك لتصور نتائج مشاكل التصنيف متعددة الفئات. فعلى سبيل المثال، تخيل أننا نقوم بتطوير نموذج تصنيف للأنواع كجزء من برنامج لحماية الحياة البحرية، بحيث يتنبأ النموذج بأنواع الأسماك. قد تبدو مصفوفة الإرباك لمثل هذه المشكلة متعددة الفئات على النحو التالي:
تشير جميع الصناديق القطرية إلى التوقعات الصحيحة. أما الصناديق الأخرى، فتمثل القيم الإيجابية الخاطئة، والقيم السلبية الخاطئة، والقيم السلبية الصحيحة، وذلك وفقًا للفئة التي يتم التركيز عليها.
نظرًا لقدرتها على توفير تصور مباشر لنتائج التنبؤ الخاصة بالمُصنِّف، فإن مصفوفة الإرباك تُعد أداة مفيدة لحساب مقاييس تقييم أخرى للنموذج. حيث يمكن ببساطة استخراج القيم من المصفوفة وإدخالها في عدد من المعادلات لقياس أداء النموذج.
لا تُعد دقة النموذج مقياسًا تقييميًا شاملًا للمُصنِّفات. فعلى سبيل المثال، تخيل أننا نشغل مُصنِّفًا على مجموعة بيانات تحتوي على 100 حالة، وتُظهر مصفوفة الإرباك الخاصة بالنموذج حالة سلبية خاطئة واحدة فقط دون أي قيم إيجابية خاطئة، في حين يتم تصنيف جميع القيم الأخرى بشكل صحيح. وبالتالي، فإن دقة النموذج تبلغ 99%. ورغم أن هذا يبدو مؤشرًا إيجابيًا، إلا أن الدقة العالية لا تعني بالضرورة أن أداء النموذج ممتاز. فعلى سبيل المثال، إذا كان نموذجنا يهدف إلى تصنيف الأمراض المعدية للغاية، فإن خطأ بنسبة 1% قد يُمثل خطرًا كبيرًا. لذلك، يمكن استخدام مقاييس تقييم أخرى لتقديم صورة أكثر دقة عن أداء خوارزمية التصنيف.
الدقة هي النسبة المئوية لتوقعات الفئة الإيجابية التي تنتمي فعليًا إلى الفئة المعنية.2 ومن الطرق الأخرى لفهم الدقة هي أنها تقيس احتمالية أن تنتمي حالة مختارة عشوائيًا إلى فئة معينة،3كما يمكن أن يُطلق على الدقة اسم قيمة التنبؤ الإيجابية (PPV)،والتي يتم تمثيلها بالمعادلة التالية:
يُشير الاستدعاء إلى النسبة المئوية لحالات الفئة التي يكتشفها النموذج.4 بعبارة أخرى، يُشير إلى نسبة التنبؤات الإيجابية لفئة معينة من بين جميع الحالات الفعلية لتلك الفئة.5 ويُعرف "الاستدعاء" أيضًا باسم الحساسية أو معدل القيم الإيجابية الصحيحة (TPR)، ويتم تمثيلها بالمعادلة التالية:
قد يكون هناك علاقة عكسية بين الدقة والاستدعاء في بعض الأحيان،فكلما زادت قدرة النموذج على استدعاء المزيد من الحالات الفعلية للفئة (أي القيم الإيجابية الصحيحة)، فإنه سيزيد أيضًا من تصنيف الحالات غير الفعلية (أي القيم الإيجابية الخاطئة) بشكل خاطئ، مما يؤدي إلى انخفاض الدقة؛6 فدرجة F1 تسعى إلى التوفيق بين الدقة والاستدعاء مُقدمة حلاً وسطًا لهذه المفاضلة.
تجمع درجة F1 - وتسمى أيضا F-score أو F-measure أو المتوسط التوافقي للدقة والاستدعاء- بين الدقة والاستدعاء لتمثيل الدقة الإجمالية للنموذج حسب الفئة. باستخدام هاتين القيمتين، يمكن للمرء حساب درجة F1 باستخدام المعادلة، حيث يشير P إلى الدقة (PPV) و R يشير إلى الاستدعاء (الحساسية):
تكون درجة F1 مفيدة بشكل خاص لمجموعات البيانات غير المتوازنة، حيث يمكن أن تظهر التنازل بين الدقة والاستدعاء بوضوح. فعلى سبيل المثال، لنفترض أن لدينا مُصنِّفًا يتنبأ باحتمالية الإصابة بمرض نادر. قد يكون لدى النموذج الذي يتنبأ بعدم إصابة أي شخص في مجموعة الاختبار بالمرض دقة مثالية، ولكنه يحقق استدعاءً يساوي صفرًا. وفي المقابل، فإن النموذج الذي يتنبأ بأن جميع الأفراد في مجموعة البيانات مصابون بالمرض سيحقق استدعاءً مثاليًا، ولكن بدقة تساوي نسبة الأشخاص المصابين بالمرض بالفعل (على سبيل المثال، 0.00001% إذا كان هناك شخص واحد فقط من كل عشرة ملايين مصابًا بالمرض). وتُعد درجة F1 وسيلة لتحقيق التوازن بين هاتين القيمتين للحصول على رؤية أكثر شمولية لأداء المُصنِّف.7
ينتقد بعض الباحثين استخدام درجة F1 كمقياس للأداء. فعادةً ما تدور هذه الانتقادات حول أن درجة F1 تمنح وزنًا متساويًا لكل من الدقة والاستدعاء، رغم أنهما قد لا يكونان متساويي الأهمية لجميع مجموعات البيانات.8 وفي المقابل، قدم الباحثون إصدارات معدلة من درجة F1.9
تشير المقاييس المشروطة إلى معدل دقة النموذج في اكتشاف فئة معينة أو عدم اكتشافها. و"الاستدعاء"، الذي يُعرف أيضًا باسم معدل القيم الإيجابية الصحيحة (TPR) أو الحساسية، هو أحد هذه المقاييس، حيث يشير إلى نسبة التنبؤات الإيجابية للفئة من بين جميع الحالات الفعلية للفئة، في حين تكون الخصوصية (الدقة السلبية)-أو، معدل القيم السلبية الصحيحة (TNR)-هي المقياس المشروط الآخر، فهي تقيس النسبة المئوية للتنبؤات السلبية الصحيحة من بين الحالات الفعلية غير المنتمية إلى فئة معينة. يُمكن حساب الخصوصية باستخدام المعادلة التالية:10
تساعد الخصوصية في حساب معدل القيم الإيجابية الخاطئة (FPR) للنموذج. تستخدم تصورات أخرى لتقييم المُصنِّف، لا سيما خصائص تشغيل المُستقبِل (ROC) والمساحة تحت المنحنى (AUC)، معدل القيم الإيجابية الخاطئة (FPR). يمثل معدل القيم الإيجابية الخاطئة (FPR) احتمال أن يقوم النموذج بتصنيف حالة غير منتمية إلى فئة معينة بشكل خاطئ كجزء من تلك الفئة. وبالتالي، كما يوحي الاسم، فإنه يعكس المعدل الذي يعيد به النموذج القيم الإيجابية الخاطئة، والمعروفة باسم الأخطاء من النوع الأول (Type I Errors) في الإحصائيات.
بينما تشير الأخطاء من النوع الأول (Type I) إلى القيم الإيجابية الخاطئة، فإن الأخطاء من النوع الثاني (Type II) تشير إلى القيم السلبية الخاطئة، أي الحالات الفعلية لفئة معينة التي تم تصنيفها بشكل خاطئ على أنها ليست جزءًا من تلك الفئة. وكما يوحي الاسم، فإن معدل القيم السلبية الخاطئة (FNR) يشير إلى احتمال أن يقوم النموذج بتصنيف حالة فعلية من فئة معينة بشكل خاطئ على أنها ليست جزءًا من تلك الفئة. فمثلما يتوافق معدل القيم الإيجابية الخاطئة (FPR) مع الخصوصية، يتوافق معدل القيم السلبية الخاطئة (FNR) مع الحساسية.
لاحظ أن معدل القيم السلبية الخاطئة (FNR) غالبًا لا يُستخدم في الدراسات، لأنه يتطلب معرفة العدد الإجمالي للحالات الفعلية لفئة معينة، وهو ما قد يظل غير معروف في مجموعات البيانات الاختبارية غير المرصودة.11
المقاييس غير المشروطة هي تلك التي تمثل احتمالية حدوث أو عدم حدوث فئة معينة وفقًا للنموذج. فالدقة—أو قيمة التنبؤ الإيجابية (PPV)—هي أحد المقاييس غير المشروطة. وكما ذُكر، تقيس الدقة احتمالية انتماء الحالة المختارة إلى فئة معينة. أما المقياس غير المشروط الآخر، قيمة التنبؤ السلبية (NPV)، فيمثّل احتمالية عدم انتماء الحالة المختارة إلى تلك الفئة. وبشكل أساسي، يحاول كلا المقياسين غير المشروطين الإجابة على ما إذا كانت الحالة المختارة عشوائيًا ستنتمي إلى فئة معينة أم لا. ويُمكن حساب قيمة التنبؤ السلبية (NPV) باستخدام المعادلة التالية.12
لقد استطلعنا آراء 2000 مجموعة حول مبادرات الذكاء الاصطناعي لديها لمعرفة ما ينجح وما لا ينجح وكيف يمكنك المضي قدمًا.
IBM Granite هي مجموعة من نماذج الذكاء الاصطناعي المفتوحة والموثوق بها وذات الأداء العالي والتي صُمِمَت خصيصًا للأعمال وجرى الارتقاء بها على النحو الأمثل لتوسيع نطاق تطبيقات الذكاء الاصطناعي لديك. استكشف خيارات اللغة والتعليمات البرمجية والسلاسل الزمنية والدرابزين.
اطّلع على كتالوجنا الشامل الذي يضم أكثر من 100 دورة تدريبية عبر الإنترنت من خلال شراء اشتراك فردي أو متعدد المستخدمين اليوم، سيتيح لك هذا توسيع نطاق مهاراتك عبر مجموعة من منتجاتنا، وكل ذلك بسعر واحد مُغرٍ.
وقد صُمم المنهج، الذي يقوده كبار قادة الفكر لدى IBM، لمساعدة قادة الأعمال على اكتساب المعرفة اللازمة لتحديد أولويات استثمارات الذكاء الاصطناعي التي يمكن أن تدفع عجلة النمو.
1 Kai Ming Ting, “Confusion matrix,” Encyclopedia of Machine Learning and Data Mining, Springer, 2018.
2 Ethan Zhang and Yi Zhang, “Precision,” Encyclopedia of Database Systems, Springer, 2018.
3 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
4 Ethan Zhang and Yi Zhang, “Recall,” Encyclopedia of Database Systems, Springer, 2018.
5 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
6 Ben Carterette, “Precision and Recall,” Encyclopedia of Database Systems, Springer, 2018.
7 Ian Goodfellow, Yoshua Bengio, and Aaron Courville, Deep Learning, MIT Press, 2016, https://www.deeplearningbook.org/. Kevin Murphy, Machine Learning: A Probabilistic Perspective, MIT Press, 2012.
8 David Hand and Peter Christen, "A note on using the F-measure for evaluating record linkage algorithms," Statistics and Computing, Vol. 28, 2018, pp. 539–547,https://link.springer.com/article/10.1007/s11222-017-9746-6 .
9 David Hand, Peter Christen, and Nishadi Kirielle, "F*: an interpretable transformation of the F-measure," Machine Learning, Vol. 110, 2021, pp. 451 456, https://link.springer.com/article/10.1007/s10994-021-05964-1 . Davide Chicco and Giuseppe Jurman, "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation," BMC Genomics, Vol. 21, 2020,https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-019-6413-7.
10 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
11 Allen Downey, Think Stats, 2nd edition, O’Reilly, 2014.
12 Max Kuhn and Kjell Johnson, Applied Predictive Modeling, Springer, 2016.
IBM web domains
ibm.com, ibm.org, ibm-zcouncil.com, insights-on-business.com, jazz.net, mobilebusinessinsights.com, promontory.com, proveit.com, ptech.org, s81c.com, securityintelligence.com, skillsbuild.org, softlayer.com, storagecommunity.org, think-exchange.com, thoughtsoncloud.com, alphaevents.webcasts.com, ibm-cloud.github.io, ibmbigdatahub.com, bluemix.net, mybluemix.net, ibm.net, ibmcloud.com, galasa.dev, blueworkslive.com, swiss-quantum.ch, blueworkslive.com, cloudant.com, ibm.ie, ibm.fr, ibm.com.br, ibm.co, ibm.ca, community.watsonanalytics.com, datapower.com, skills.yourlearning.ibm.com, bluewolf.com, carbondesignsystem.com