La matriz de confusión ayuda a evaluar el rendimiento del modelo de clasificación en el machine learning comparando los valores predichos con los valores reales de un conjunto de datos.
Una matriz de confusión (o matriz de error) es un método de visualización para los resultados del algoritmo clasificador. Más específicamente, es una tabla que desglosa el número de instancias de verdad fundamental de una clase específica frente al número de instancias de clase previstas. Las matrices de confusión son una de las diferentes métricas de evaluación que miden el rendimiento de un modelo de clasificación. Se pueden utilizar para calcular otras métricas de rendimiento del modelo, como la precisión y la recuperación, entre otras.
Las matrices de confusión pueden utilizarse con cualquier algoritmo clasificador, como Naïve Bayes, modelos de regresión, árboles de decisión, etc. Debido a su amplia aplicabilidad en la ciencia de datos y en los modelos de machine learning, muchos paquetes y bibliotecas vienen precargados con funciones para crear matrices de confusión, como el módulo sklearn.metrics de scikit-learn para Python.
En una matriz de confusión, las columnas representan los valores predichos de una clase determinada, mientras que las filas representan los valores reales (es decir, verdad fundamental) de una clase determinada, o viceversa. Tenga en cuenta que lo contrario también aparece en la investigación. Esta estructura de cuadrícula es una herramienta cómoda para visualizar la precisión de la clasificación del modelo al mostrar el número de predicciones correctas e incorrectas para todas las clases una al lado de la otra.
Una plantilla de matriz de confusión estándar para un clasificador binario puede tener este aspecto:
El cuadro superior izquierdo proporciona el número de verdaderos positivos (VP), que es el número de predicciones correctas para la clase positiva. El cuadro inferior corresponde a los falsos positivos (FP), aquellos casos de clase negativa identificados incorrectamente como casos positivos. Estos también se llaman errores tipo I en estadística. El cuadro superior derecho representa el número de falsos negativos (FN), los casos positivos reales que se predijeron erróneamente como negativos. Finalmente, el cuadro inferior derecho muestra el número de verdaderos negativos (VN), que son las instancias de clase negativa reales que se predijeron con precisión como negativas. La suma de cada uno de estos valores proporcionaría el número total de predicciones del modelo1.
Por supuesto, esta plantilla es para un problema rudimentario de clasificación binaria. La matriz de confusión también puede visualizar los resultados de los problemas de clasificación multiclase. Por ejemplo, imaginemos que estamos desarrollando un modelo de clasificación de especies como parte de un programa de conservación de la vida marina. El modelo predice las especies de peces. Una matriz de confusión para un problema de clasificación multiclase de este tipo puede tener este aspecto:
Todos los cuadros diagonales indican verdaderos positivos previstos. Los otros cuadros proporcionan cantidades de falsos positivos, falsos negativos y verdaderos negativos según la clase en la que uno elija centrarse.
Dada su visualización fácilmente accesible de los resultados predictivos del clasificador, la matriz de confusión es útil para calcular otras métricas de evaluación del modelo. Los valores pueden extraerse simplemente de la matriz y conectarse con una serie de ecuaciones para medir el rendimiento del modelo.
La precisión del modelo no es una medida de evaluación totalmente informativa para los clasificadores. Por ejemplo, imagine que ejecutamos un clasificador en un conjunto de datos de 100 instancias. La matriz de confusión del modelo muestra solo un falso negativo y ningún falso positivo; el modelo clasifica correctamente todas las demás instancias de datos. Por lo tanto, el modelo tiene una precisión del 99 %. Aunque aparentemente deseable, una alta precisión no es en sí misma indicativa de un excelente rendimiento del modelo. Por ejemplo, supongamos que nuestro modelo pretende clasificar enfermedades altamente contagiosas. Esa clasificación errónea del 1 % plantea un riesgo enorme. Por lo tanto, se pueden utilizar otras métricas de evaluación para proporcionar una mejor imagen del rendimiento del algoritmo de clasificación.
La precisión es la proporción de predicciones de clase positivas que realmente pertenecen a la clase en cuestión2. Otra forma de entender la precisión es que mide la probabilidad de que una instancia elegida al azar pertenezca a una clase determinada3. La precisión también puede denominarse valor previsto positivo (PPV). Se representa mediante la ecuación:
La recuperación denota el porcentaje de instancias de clase detectadas por un modelo4. En otras palabras, indica la proporción de predicciones positivas para una clase dada de todas las instancias reales de esa clase 5. El recuerdo también se conoce como sensibilidad o tasa de verdaderos positivos (TPR) y se representa mediante la ecuación:
La precisión y la recuperación a veces pueden compartir una relación inversa. A medida que un modelo aumenta la recuperación al devolver más instancias de clase reales (es decir, verdaderos positivos), el modelo inevitablemente clasificará erróneamente las no instancias (es decir, falsos positivos), lo que disminuye la precisión6. La puntuación F1 intenta combinar precisión y recuperación para resolver este problema.
La puntuación F1, también llamada puntuación F, medida F o media armónica de precisión y recuperación, combina precisión y recuperación para representar la precisión total de clase de un modelo. Utilizando estos dos valores, se puede calcular la puntuación F1 con la ecuación, donde P denota precisión (PPV) y R denota recuperación (sensibilidad):
La puntuación F1 es especialmente útil para conjuntos de datos desequilibrados, en los que el equilibrio entre precisión y recuperación puede ser más evidente. Por ejemplo, supongamos que tenemos un clasificador que predice la probabilidad de una enfermedad rara. Un modelo que predice que nadie en nuestro conjunto de datos de prueba tiene la enfermedad puede tener una precisión perfecta pero una recuperación nula. Mientras tanto, un modelo que prediga que todos los miembros de nuestro conjunto de datos tienen la enfermedad devolvería una recuperación perfecta pero una precisión igual al porcentaje de personas que realmente tienen la enfermedad (por ejemplo, 0,00001 % si solo uno de cada diez millones tiene la enfermedad). La puntuación F1 es un medio de equilibrar estos dos valores para obtener una visión más holística del rendimiento de un clasificador7.
Algunos investigadores critican el uso de la puntuación F1 como medida de rendimiento. Estos argumentos suelen afirmar que la puntuación F1 otorga el mismo peso a la precisión y a la recuperación, que pueden no ser métricas de rendimiento igualmente importantes para todos los conjuntos de datos8. En respuesta a ello, los investigadores han propuesto variantes modificadas de la puntuación F19.
Las medidas condicionales indican la tasa de precisión de un modelo para detectar una determinada clase o no clase. La recuperación, también conocida como tasa de verdaderos positivos (TPR) o sensibilidad, es una de esas medidas, que indica la proporción de predicciones de clase positivas de todas las instancias de clase reales. La especificidad, o tasa negativa verdadera (TNR), es la otra medida condicional. Mide la proporción de predicciones negativas correctas de las no instancias reales de una clase determinada. Se puede calcular la especificidad con la ecuación:10
La especificidad ayuda a calcular la tasa de falsos positivos (FPR) de un modelo. Otras visualizaciones de evaluación de clasificadores, en particular la curva ROC y el AUC, utilizan FPR. FPR es la probabilidad de que un modelo clasifique falsamente una no instancia de una determinada clase como parte de esa clase. Por lo tanto, según su nombre, representa la tasa a la que un modelo devuelve falsos positivos, conocidos como errores de tipo I en estadística.
Mientras que los errores de tipo I se refieren a falsos positivos, los errores de tipo II denotan falsos negativos, instancias reales de una clase determinada clasificadas erróneamente como no parte de esa clase. Por su nombre, la tasa de falsos negativos (FNR) denota la probabilidad de que un modelo clasifique erróneamente una instancia de clase real como no parte de esa clase. Así como FPR corresponde a especificidad, FNR corresponde a sensibilidad:
Tenga en cuenta que FNR a menudo no se utiliza en la literatura porque requiere conocer el número total de instancias reales para una clase determinada, que puede permanecer desconocida en conjuntos de datos de prueba no vistos11.
Las métricas incondicionales son aquellas que representan las posibilidades de que una clase específica ocurra o no según el modelo. La precisión, o valor predicho positivo (VPP), es una métrica incondicional. Como se mencionó, mide la probabilidad de que una instancia elegida pertenezca a una determinada clase. La otra métrica incondicional, el valor predicho negativo (VPN), es la probabilidad de que una instancia elegida no pertenezca a esa clase. Básicamente, ambas métricas incondicionales intentan responder si una instancia elegida aleatoriamente pertenecerá a una clase específica o no. El VPN se puede calcular con la ecuación:12
1 Kai Ming Ting. "Confusion matrix". Encyclopedia of Machine Learning and Data Mining. Springer. 2018.
2 Ethan Zhang y Yi Zhang. “Precision”. Encyclopedia of Database Systems. Springer. 2018.
3 Max Kuhn y Kjell Johnson. Applied Predictive Modeling. Springer. 2016.
4 Ethan Zhang y Yi Zhang. "Recall". Encyclopedia of Database Systems. Springer. 2018.
5 Max Kuhn y Kjell Johnson. Applied Predictive Modeling. Springer. 2016.
6 Ben Carterette. "Precision and Recall". Encyclopedia of Database Systems. Springer. 2018.
7 Ian Goodfellow, Yoshua Bengio, y Aaron Courville. Deep Learning. MIT Press. 2016. https://www.deeplearningbook.org/. Kevin Murphy. Machine Learning: A Probabilistic Perspective. MIT Press. 2012.
8 David Hand y Peter Christen. "A note on using the F-measure for evaluating record linkage algorithms". Statistics and Computing. Vol. 28. 2018. PP. 539–547.https://link.springer.com/article/10.1007/s11222-017-9746-6 .
9 David Hand, Peter Christen y Nishadi Kirielle. "F*: an interpretable transformation of the F-measure". Machine Learning. Vol. 110. 2021. PP. 451 456. https://link.springer.com/article/10.1007/s10994-021-05964-1 . Davide Chicco y Giuseppe Jurman. "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. Vol. 21. 2020.https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-019-6413-7.
10 Max Kuhn y Kjell Johnson. Applied Predictive Modeling. Springer. 2016.
11 Allen Downey. Think Stats. 2.ª edición. O’Reilly. 2014.
12 Max Kuhn y Kjell Johnson.Applied Predictive Modeling. Springer. 2016.