Para este conjunto de datos, la entropía es 0.94. Esto se puede calcular encontrando la proporción de días en los que “Juega al tenis” es “Sí”, que es 9/14, y la proporción de días en los que “Juega al tenis” es “No”, que es 5/14. Luego, estos valores se pueden conectar a la fórmula de entropía anterior.
Entropía (Tenis) = -(9/14) log2(9/14) – (5/14) log2 (5/14) = 0.94
A continuación, podemos calcular la ganancia de información para cada uno de los atributos individualmente. Por ejemplo, la ganancia de información para el atributo "Humedad" sería la siguiente:
Ganancia (Tenis, Humedad) = (0.94) - (7/14) * (0.985) – 7/14) * (0,592) = 0.151
En resumen,
- 7/14 representa la proporción de valores donde la humedad es “alta” respecto al número total de valores de humedad. En este caso, el número de valores donde la humedad es igual a “alta” es el mismo que el número de valores donde la humedad es igual a “normal”.
- 0.985 es la entropía cuando Humedad = “alta”
- 0.59 es la entropía cuando la humedad = “normal”
A continuación, repita el cálculo de la ganancia de información para cada atributo de la tabla anterior y seleccione el atributo con la mayor ganancia de información para que sea el primer punto de división en el árbol de decisión. En este caso, Outlook produce la mayor ganancia de información. Desde ahí, el proceso se repite para cada subárbol.