A perda de entropia cruzada binária, também conhecida como perda logarítmica, é usada para classificação binária. Os algoritmos de classificação binária normalmente produzem um valor de probabilidade entre 0 e 1. Por exemplo, em um modelo de detecção de spam por e-mail, as entradas de e-mail que resultam em saídas mais próximas de 1 podem ser rotuladas como “spam”. Entradas que produzem saídas mais próximas de 0 seriam classificadas como “não spam”. Uma saída de 0,5 indicaria incerteza ou entropia máxima.
Embora o algoritmo produza valores entre 0 e 1, os valores da verdade absoluta para as previsões corretas são exatamente “0” ou “1”. Minimizar a perda de entropia cruzada binária, portanto, implica não apenas penalizar as previsões incorretas, mas também penalizar as previsões com baixa certeza. Isso incentiva o modelo a aprender parâmetros que produzem previsões que não são apenas corretas, mas também confiáveis. Além disso, focar nos logaritmos dos valores de verossimilhança previstos faz com que o algoritmo penalize mais fortemente as previsões que estão confiantemente erradas.
Para manter a convenção comum de valores de perda mais baixos significando menos erro, o resultado é multiplicado por -1. A perda logarítmica para um único exemplo i é, portanto, calculada como –(yi·log(p(yi))+(1-yi)·log(1-p(yi))) , onde yi é a verdadeira verossimilhança — 0 ou 1 — e p (yi) é a probabilidade prevista. A perda média em todo um conjunto de n exemplos de treinamento é, portanto, calculada como –1n∑i=1nyi·log(p(yi))+(1-yi)·log(1-p(yi)) .