Antes de sumergirnos en el descenso de gradiente, puede ser útil revisar algunos conceptos de la regresión lineal. Puede recordar la siguiente fórmula para la pendiente de una línea, que es y = mx + b, donde m representa la pendiente y b es la intersección en el eje y.
También puede recordar haber trazado un diagrama de dispersión en estadística y haber encontrado la línea de mejor ajuste, lo que requirió calcular el error entre la salida real y la salida pronosticada (y-hat) utilizando la fórmula del error cuadrático medio. El algoritmo de descenso de gradiente se comporta de manera similar, pero se basa en una función convexa.
El punto de partida es solo un punto arbitrario para que evaluemos el rendimiento. A partir de ese punto de partida, encontraremos la derivada (o pendiente), y a partir de ahí, podemos usar una línea tangente para observar la inclinación de la pendiente. La pendiente informará las actualizaciones de los parámetros del modelo, es decir, los pesos y el sesgo. La pendiente en el punto de partida será más pronunciada, pero a medida que se generen nuevos parámetros, la pendiente debe reducirse gradualmente hasta alcanzar el punto más bajo de la curva, conocido como punto de convergencia.
De forma similar a la búsqueda de la línea de mejor ajuste en la regresión lineal, el objetivo del descenso de gradiente es minimizar la función de coste, o el error entre la predicción y el valor real de y. Para ello, necesita dos datos: una dirección y un ritmo de aprendizaje. Estos factores determinan los cálculos de las derivadas parciales de las iteraciones futuras, lo que permite llegar gradualmente al mínimo local o global (es decir, al punto de convergencia).
- La tasa de aprendizaje (también conocida como tamaño de paso o alfa) es el tamaño de los pasos que se toman para alcanzar el mínimo. Normalmente, se trata de un valor pequeño y se evalúa y actualiza en función del comportamiento de la función de coste. Las altas tasas de aprendizaje dan como resultado pasos más grandes, pero se corre el riesgo de sobrepasar el mínimo. Por el contrario, una tasa de aprendizaje baja tiene pasos pequeños. Si bien tiene la ventaja de una mayor precisión, el número de iteraciones compromete la eficiencia general, ya que se necesita más tiempo y cálculos para alcanzar el mínimo.
- La función de coste (o pérdida) mide la diferencia, o el error, entre y real e y pronosticado en su posición actual. Esto mejora la eficacia del modelo de machine learning al proporcionar feedback al modelo para que pueda ajustar los parámetros para minimizar el error y encontrar el mínimo local o global. Itera continuamente, moviéndose en la dirección del descenso más pronunciado (o el gradiente negativo) hasta que la función de coste esté cerca o en cero. En este punto, el modelo dejará de aprender. Además, aunque los términos función de coste y función de pérdida se consideran sinónimos, hay una ligera diferencia entre ellos. Cabe señalar que una función de pérdida se refiere al error de un ejemplo de entrenamiento, mientras que una función de coste calcula el error medio en todo un conjunto de entrenamiento.