¿Qué es una matriz de confusión?

Joven empresaria de pie junto a la ventana con el teléfono móvil en la oficina de inicio

Autores

Jacob Murel Ph.D.

Senior Technical Content Creator

Eda Kavlakoglu

Business Development + Partnerships

IBM Research

La matriz de confusión ayuda a evaluar el rendimiento del modelo de clasificación en el machine learning comparando los valores predichos con los valores reales de un conjunto de datos.

Una matriz de confusión (o matriz de error) es un método de visualización para los resultados del algoritmo clasificador. Más específicamente, es una tabla que desglosa el número de instancias de verdad fundamental de una clase específica frente al número de instancias de clase previstas. Las matrices de confusión son una de las diferentes métricas de evaluación que miden el rendimiento de un modelo de clasificación. Se pueden utilizar para calcular otras métricas de rendimiento del modelo, como la precisión y la recuperación, entre otras.

Las matrices de confusión pueden utilizarse con cualquier algoritmo clasificador, como Naïve Bayes, modelos de regresión, árboles de decisión, etc. Debido a su amplia aplicabilidad en la ciencia de datos y en los modelos de machine learning, muchos paquetes y bibliotecas vienen precargados con funciones para crear matrices de confusión, como el módulo sklearn.metrics de scikit-learn para Python.

Diseño 3D de bolas rodando por un circuito

Las últimas noticias + conocimientos de IA 


Descubra ideas y noticias de expertos sobre IA, nube y mucho más en el boletín semanal Think. 

La matriz de confusión marix

En una matriz de confusión, las columnas representan los valores predichos de una clase determinada, mientras que las filas representan los valores reales (es decir, verdad fundamental) de una clase determinada, o viceversa. Tenga en cuenta que lo contrario también aparece en la investigación. Esta estructura de cuadrícula es una herramienta cómoda para visualizar la precisión de la clasificación del modelo al mostrar el número de predicciones correctas e incorrectas para todas las clases una al lado de la otra.

Una plantilla de matriz de confusión estándar para un clasificador binario puede tener este aspecto:

El cuadro superior izquierdo proporciona el número de verdaderos positivos (VP), que es el número de predicciones correctas para la clase positiva. El cuadro inferior corresponde a los falsos positivos (FP), aquellos casos de clase negativa identificados incorrectamente como casos positivos. Estos también se llaman errores tipo I en estadística. El cuadro superior derecho representa el número de falsos negativos (FN), los casos positivos reales que se predijeron erróneamente como negativos. Finalmente, el cuadro inferior derecho muestra el número de verdaderos negativos (VN), que son las instancias de clase negativa reales que se predijeron con precisión como negativas. La suma de cada uno de estos valores proporcionaría el número total de predicciones del modelo1.

Por supuesto, esta plantilla es para un problema rudimentario de clasificación binaria. La matriz de confusión también puede visualizar los resultados de los problemas de clasificación multiclase. Por ejemplo, imaginemos que estamos desarrollando un modelo de clasificación de especies como parte de un programa de conservación de la vida marina. El modelo predice las especies de peces. Una matriz de confusión para un problema de clasificación multiclase de este tipo puede tener este aspecto:

Todos los cuadros diagonales indican verdaderos positivos previstos. Los otros cuadros proporcionan cantidades de falsos positivos, falsos negativos y verdaderos negativos según la clase en la que uno elija centrarse.

Uso de la matriz de confusión para la evaluación de modelos

Dada su visualización fácilmente accesible de los resultados predictivos del clasificador, la matriz de confusión es útil para calcular otras métricas de evaluación del modelo. Los valores pueden extraerse simplemente de la matriz y conectarse con una serie de ecuaciones para medir el rendimiento del modelo.

exactitud

La precisión del modelo no es una medida de evaluación totalmente informativa para los clasificadores. Por ejemplo, imagine que ejecutamos un clasificador en un conjunto de datos de 100 instancias. La matriz de confusión del modelo muestra solo un falso negativo y ningún falso positivo; el modelo clasifica correctamente todas las demás instancias de datos. Por lo tanto, el modelo tiene una precisión del 99 %. Aunque aparentemente deseable, una alta precisión no es en sí misma indicativa de un excelente rendimiento del modelo. Por ejemplo, supongamos que nuestro modelo pretende clasificar enfermedades altamente contagiosas. Esa clasificación errónea del 1 % plantea un riesgo enorme. Por lo tanto, se pueden utilizar otras métricas de evaluación para proporcionar una mejor imagen del rendimiento del algoritmo de clasificación.

Precisión y recuperación

La precisión es la proporción de predicciones de clase positivas que realmente pertenecen a la clase en cuestión2. Otra forma de entender la precisión es que mide la probabilidad de que una instancia elegida al azar pertenezca a una clase determinada3. La precisión también puede denominarse valor previsto positivo (PPV). Se representa mediante la ecuación:

La recuperación denota el porcentaje de instancias de clase detectadas por un modelo4. En otras palabras, indica la proporción de predicciones positivas para una clase dada de todas las instancias reales de esa clase 5. El recuerdo también se conoce como sensibilidad o tasa de verdaderos positivos (TPR) y se representa mediante la ecuación:

Puntuación de la F1

La precisión y la recuperación a veces pueden compartir una relación inversa. A medida que un modelo aumenta la recuperación al devolver más instancias de clase reales (es decir, verdaderos positivos), el modelo inevitablemente clasificará erróneamente las no instancias (es decir, falsos positivos), lo que disminuye la precisión6. La puntuación F1 intenta combinar precisión y recuperación para resolver este problema.

La puntuación F1, también llamada puntuación F, medida F o media armónica de precisión y recuperación, combina precisión y recuperación para representar la precisión total de clase de un modelo. Utilizando estos dos valores, se puede calcular la puntuación F1 con la ecuación, donde P denota precisión (PPV) y R denota recuperación (sensibilidad):

La puntuación F1 es especialmente útil para conjuntos de datos desequilibrados, en los que el equilibrio entre precisión y recuperación puede ser más evidente. Por ejemplo, supongamos que tenemos un clasificador que predice la probabilidad de una enfermedad rara. Un modelo que predice que nadie en nuestro conjunto de datos de prueba tiene la enfermedad puede tener una precisión perfecta pero una recuperación nula. Mientras tanto, un modelo que prediga que todos los miembros de nuestro conjunto de datos tienen la enfermedad devolvería una recuperación perfecta pero una precisión igual al porcentaje de personas que realmente tienen la enfermedad (por ejemplo, 0,00001 % si solo uno de cada diez millones tiene la enfermedad). La puntuación F1 es un medio de equilibrar estos dos valores para obtener una visión más holística del rendimiento de un clasificador7.

Algunos investigadores critican el uso de la puntuación F1 como medida de rendimiento. Estos argumentos suelen afirmar que la puntuación F1 otorga el mismo peso a la precisión y a la recuperación, que pueden no ser métricas de rendimiento igualmente importantes para todos los conjuntos de datos8. En respuesta a ello, los investigadores han propuesto variantes modificadas de la puntuación F19.

Medidas condicionales

Las medidas condicionales indican la tasa de precisión de un modelo para detectar una determinada clase o no clase. La recuperación, también conocida como tasa de verdaderos positivos (TPR) o sensibilidad, es una de esas medidas, que indica la proporción de predicciones de clase positivas de todas las instancias de clase reales. La especificidad, o tasa negativa verdadera (TNR), es la otra medida condicional. Mide la proporción de predicciones negativas correctas de las no instancias reales de una clase determinada. Se puede calcular la especificidad con la ecuación:10

Tasa de falsos positivos

La especificidad ayuda a calcular la tasa de falsos positivos (FPR) de un modelo. Otras visualizaciones de evaluación de clasificadores, en particular la curva ROC y el AUC, utilizan FPR. FPR es la probabilidad de que un modelo clasifique falsamente una no instancia de una determinada clase como parte de esa clase. Por lo tanto, según su nombre, representa la tasa a la que un modelo devuelve falsos positivos, conocidos como errores de tipo I en estadística.

Mientras que los errores de tipo I se refieren a falsos positivos, los errores de tipo II denotan falsos negativos, instancias reales de una clase determinada clasificadas erróneamente como no parte de esa clase. Por su nombre, la tasa de falsos negativos (FNR) denota la probabilidad de que un modelo clasifique erróneamente una instancia de clase real como no parte de esa clase. Así como FPR corresponde a especificidad, FNR corresponde a sensibilidad:

Tenga en cuenta que FNR a menudo no se utiliza en la literatura porque requiere conocer el número total de instancias reales para una clase determinada, que puede permanecer desconocida en conjuntos de datos de prueba no vistos11.

Métricas incondicionales

Las métricas incondicionales son aquellas que representan las posibilidades de que una clase específica ocurra o no según el modelo. La precisión, o valor predicho positivo (VPP), es una métrica incondicional. Como se mencionó, mide la probabilidad de que una instancia elegida pertenezca a una determinada clase. La otra métrica incondicional, el valor predicho negativo (VPN), es la probabilidad de que una instancia elegida no pertenezca a esa clase. Básicamente, ambas métricas incondicionales intentan responder si una instancia elegida aleatoriamente pertenecerá a una clase específica o no. El VPN se puede calcular con la ecuación:12

Mixture of Experts | 12 de diciembre, episodio 85

Descifrar la IA: resumen semanal de noticias

Únase a nuestro panel de ingenieros, investigadores, responsables de producto y otros profesionales de talla mundial que se abren paso entre el bullicio de la IA para ofrecerle las últimas noticias y conocimientos al respecto.

Soluciones relacionadas
IBM watsonx.ai

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de nueva generación para desarrolladores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA al servicio de su negocio con la experiencia líder del sector y el portfolio de soluciones de IA de IBM.

Explore las soluciones de IA
Servicios y consultoría de inteligencia artificial (IA)

Los servicios de IA de IBM Consulting ayudan a reinventar la forma de trabajar de las empresas usando IA para la transformación.

Explore los servicios de IA
Dé el siguiente paso

Obtenga acceso único a capacidades que abarcan el ciclo de vida de desarrollo de la IA. Produzca potentes soluciones de IA con interfaces intuitivas, flujos de trabajo y acceso a API y SDK estándar del sector.

Explore watsonx.ai Solicite una demo en directo
Notas a pie de página

1 Kai Ming Ting. "Confusion matrix". Encyclopedia of Machine Learning and Data Mining. Springer. 2018.

2 Ethan Zhang y Yi Zhang. “Precision”. Encyclopedia of Database Systems. Springer. 2018.

3 Max Kuhn y Kjell Johnson. Applied Predictive Modeling. Springer. 2016.

4 Ethan Zhang y Yi Zhang. "Recall". Encyclopedia of Database Systems. Springer. 2018.

5 Max Kuhn y Kjell Johnson. Applied Predictive Modeling. Springer. 2016.

6 Ben Carterette. "Precision and Recall". Encyclopedia of Database Systems. Springer. 2018.

7 Ian Goodfellow, Yoshua Bengio, y Aaron Courville. Deep Learning. MIT Press. 2016. https://www.deeplearningbook.org/. Kevin Murphy. Machine Learning: A Probabilistic Perspective. MIT Press. 2012.

8 David Hand y Peter Christen. "A note on using the F-measure for evaluating record linkage algorithms". Statistics and Computing. Vol. 28. 2018. PP. 539–547.https://link.springer.com/article/10.1007/s11222-017-9746-6 .

9 David Hand, Peter Christen y Nishadi Kirielle. "F*: an interpretable transformation of the F-measure". Machine Learning. Vol. 110. 2021. PP. 451 456. https://link.springer.com/article/10.1007/s10994-021-05964-1 . Davide Chicco y Giuseppe Jurman. "The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation". BMC Genomics. Vol. 21. 2020.https://bmcgenomics.biomedcentral.com/articles/10.1186/s12864-019-6413-7.

10 Max Kuhn y Kjell Johnson. Applied Predictive Modeling. Springer. 2016.

11 Allen Downey. Think Stats. 2.ª edición. O’Reilly. 2014.

12 Max Kuhn y Kjell Johnson.Applied Predictive Modeling. Springer. 2016.