Las técnicas de aprendizaje supervisado utilizan un conjunto de datos etiquetado para comprender las relaciones entre los datos de entrada y salida. Los científicos de datos crean manualmente conjuntos de datos de entrenamiento de verdad que contienen datos de entrada junto con las etiquetas correspondientes. El aprendizaje supervisado entrena el modelo para aplicar los outputs correctos a datos no vistos en casos de uso del mundo real.
Durante el entrenamiento, el algoritmo del modelo procesa grandes conjuntos de datos para explorar posibles correlaciones entre entradas y salidas. A continuación, se evalúa el rendimiento del modelo con datos de prueba para averiguar si se entrenó correctamente. La validación cruzada es el proceso de probar un modelo utilizando una parte diferente del conjunto de datos.
La familia de algoritmos de descenso de gradiente, incluido el descenso de gradiente estocástico (SGD), son los algoritmos de optimización o algoritmos de aprendizaje, más utilizados al entrenar redes neuronales y otros modelos de machine learning. El algoritmo de optimización del modelo evalúa la precisión a través de la función de pérdida: una ecuación que mide la discrepancia entre las predicciones del modelo y los valores reales.
La función de pérdida mide lo lejos que están las predicciones de los valores reales. Su gradiente indica la dirección en la que deben ajustarse los parámetros del modelo para reducir el error. A lo largo del entrenamiento, el algoritmo de optimización actualiza los parámetros del modelo, sus reglas de funcionamiento o "ajustes", para optimizarlo.
Dado que los grandes conjuntos de datos suelen contener muchas características, los científicos de datos pueden simplificar esta complejidad mediante la reducción de la dimensionalidad. Esta técnica de ciencia de datos reduce el número de características a las más cruciales para predecir las etiquetas de datos, lo que preserva la precisión y aumenta la eficiencia.