في معظم الحالات، يتم حساب خسارة التصنيف من حيث الأنتروبيا. الأنتروبيا، بلغة بسيطة، هي مقياس لعدم اليقين داخل النظام. ولمثال بديهي، قارن بين رمي العملات المعدنية ورمي النرد: الأولى لها أنتروبيا أقل، حيث أن النتائج المحتملة في رمي العملة المعدنية (2) أقل من رمي النرد (6).
في التعلم الخاضع للإشراف، تتم مقارنة تنبؤات النماذج بتصنيفات الحقائق الأساسية التي توفرها تسميات البيانات. تسميات الحقائق الأساسية هذه مؤكدة، ومن ثَمَّ يكون لها قصور منخفض أو معدوم. وعلى هذا النحو، يمكننا قياس حجم الخسارة من حيث الاختلاف في اليقين الذي سنحصل عليه باستخدام تسميات الحقائق الأساسية مقارنة بيقين التسميات التي يتنبأ بها النموذج.
تُشتق معادلة خسارة الأنتروبيا المتقاطعة (CEL) من مقياس تباعد كولباك - ليبلير (KL divergence)، والذي يقيس الفرق بين توزيعين احتماليين. في نهاية المطاف، يستلزم تقليل الخسارة إلى الحد الأدنى تقليل الفرق بين التوزيع الحقيقي الأساسي للاحتمالات المعينة لكل تسمية محتملة والاحتمالات النسبية لكل تسمية متوقعة بواسطة النموذج.
الإنتروبيا المتقاطعة الثنائية (خسارة السجل)
تُستخدم خسارة الإنتروبيا المتقاطعة الثنائية، التي تسمى أيضًا خسارة السجل، للتصنيف الثنائي. عادةً ما تُنتج خوارزميات التصنيف الثنائي قيمة احتمالية بين 0 و1. على سبيل المثال، في نموذج كشف البريد الإلكتروني العشوائي، قد يتم تصنيف إدخالات البريد الإلكتروني التي تؤدي إلى إخراجات أقرب إلى 1 على أنها "بريد عشوائي". ويتم تصنيف الإدخالات التي تُنتج إخراجات أقرب إلى 0 على أنها "ليست بريدًا عشوائيًا". يشير الإخراج 0,5 إلى أقصى قدر من الشكوك أو الإنتروبيا.
على الرغم من أن الخوارزمية ستُنتج قيمًا بين 0 و1، فإن قيم الحقائق الأساسية للتنبؤات الصحيحة هي "0" أو "1" بالضبط. ومن ثَمَّ فإن تقليل خسارة القصور التبادلي الثنائي لا يستلزم فقط المعاقبة بسبب التنبؤات غير الصحيحة ولكن أيضًا المعاقبة بسبب التنبؤات ذات اليقين المنخفض. هذا يحفز النموذج على تعلم المعلمات التي تسفر عن تنبؤات ليست صحيحة فحسب، بل جديرة بالثقة أيضًا. علاوة على ذلك، فإن التركيز على لوغاريتمات قيم الاحتمالية المتوقعة يؤدي إلى المعاقبة بشكل أكبر بخصوص الخوارزميات بسبب التنبؤات التي يثبت خطأها.
للحفاظ على العرف الشائع بأن قيم الخسارة الأقل تعني خطأ أقل، يتم ضرب الناتج في -1. وهكذا يتم حساب خسارة اللوغاريتم لمثال واحد i على النحو التالي , where yi is the true likelihood—either 0 or 1—and p(yi) is the predicted likelihood. وبالتالي يتم حساب متوسط الخسارة عبر مجموعة كاملة من الأمثلة التدريبية n على النحو التالي .
خسارة الإنتروبيا المتقاطعة التصنيفية
تطبق خسارة الإنتروبيا المتقاطعة التصنيفية (CCEL) نفس المبدأ على التصنيف متعدد الفئات. عادةً ما يقوم نموذج التصنيف متعدد الفئات بإخراج قيمة لكل فئة محتملة، تمثل احتمال انتماء المدخلات إلى كل فئة معنية. وبعبارة أخرى، فإنها تنتج التنبؤات كتوزيع احتمالي.
في التعلم العميق، عادةً ما تستخدم مصنِّفات الشبكة العصبية دالة تنشيط softmax للخلايا العصبية في طبقة الإخراج. يتم تعيين قيمة كل خلية عصبية ناتجة إلى رقم بين 0 و1، ويصل مجموع القيم معًا إلى 1.
على سبيل المثال، في نقطة بيانات تحتوي على فئة محتملة واحدة فقط، فإن قيم الحقيقة الأساسية لكل تنبؤ تتكون من "1" للفئة الصحيحة و"0" لكل فئة غير صحيحة. يستلزم تقليل CCEL زيادة قيمة المخرجات للفئة الصحيحة وتقليل قيم المخرجات للفئات غير الصحيحة، وبالتالي تقريب توزيع الاحتمالات من الحقيقة الأساسية. بالنسبة لكل مثال، يجب حساب خسارة اللوغاريتم لكل تصنيف محتمل يتنبأ به النموذج.