Inicio Topics Machine Learning Pipeline ¿Qué es la canalización de machine learning?
Explore la solución de canalización de machine learning de IBM Suscríbase a actualizaciones de IA
Ilustración con collage de pictogramas de nubes, gráfico circular, pictogramas gráficos
¿Qué es la canalización de machine learning?

Una canalización de machine learning es una serie de pasos interconectados de procesamiento y modelado de datos diseñados para automatizar, estandarizar y optimizar el proceso de creación, entrenamiento, evaluación e implementación de modelos de machine learning.

Una canalización de machine learning es un componente crucial en el desarrollo y la producción de sistemas de machine learning, ayudando a científicos de datos e ingenieros de datos a gestionar la complejidad del proceso de machine learning integral y ayudándolos a desarrollar soluciones precisas y escalables para una amplia gama de aplicaciones.

IBM nombrada líder por IDC

Lea por qué IBM ha sido nombrada líder en el informe IDC MarketScape: Worldwide AI Governance Platforms 2023.

Contenido relacionado

Regístrese para recibir el libro electrónico sobre IA generativa

Ventajas de las canalizaciones de machine learning

Las canalizaciones de machine learning ofrecen muchas ventajas.

  • Modularización: las canalizaciones le permiten dividir el proceso de machine learning en pasos modulares y bien definidos. Cada paso se puede desarrollar, probar y optimizar de forma independiente, lo que facilita la gestión y el mantenimiento del flujo de trabajo.
     

  • Reproducibilidad: las canalizaciones de machine learning facilitan la reproducción de experimentos. Al definir la secuencia de pasos y sus parámetros en una canalización, puede recrear todo el proceso con exactitud, lo que garantiza resultados coherentes. Si se produce un error en un paso o el rendimiento de un modelo se deteriora, la canalización se puede configurar para generar alertas o realizar acciones correctivas.
     

  • Eficiencia: los pipelines automatizan muchas tareas rutinarias, como el preprocesamiento de datos, la ingeniería de características y la evaluación de modelos. Esta eficiencia puede ahorrar una cantidad significativa de tiempo y reducir el riesgo de errores.
     

  • Escalabilidad: las canalizaciones se pueden escalar fácilmente para manejar grandes conjuntos de datos o flujos de trabajo complejos. A medida que crece la complejidad de los datos y los modelos, puede ajustar la canalización sin tener que reconfigurarlo todo desde cero, lo que puede llevar mucho tiempo.
     

  • Experimentación: puede experimentar con diferentes técnicas de preprocesamiento de datos, selecciones de entidades y modelos modificando pasos individuales dentro de la canalización. Esta flexibilidad permite una rápida iteración y optimización.
     

  • Implementación: los procesos facilitan la implementación de modelos de machine learning en producción. Una vez que haya establecido una canalización bien definida para la formación y evaluación de modelos, puede integrarla fácilmente en su aplicación o sistema.
     

  • Colaboración: las canalizaciones facilitan la colaboración de los equipos de científicos e ingenieros de datos. Dado que el flujo de trabajo está estructurado y documentado, es más fácil para los miembros del equipo comprender y contribuir al proyecto.
     

  • Control de versiones y documentación: puede utilizar sistemas de control de versiones para realizar un seguimiento de los cambios en el código y la configuración de su canalización, asegurándose de poder volver a versiones anteriores si es necesario. Un proceso bien estructurado fomenta una mejor documentación de cada paso.

Las etapas de una canalización de machine learning

La tecnología de aprendizaje automático avanza a un ritmo rápido, pero podemos identificar algunos pasos generales involucrados en el proceso de creación e implementación de modelos de machine learning y deep learning. 

  1. Recogida de datos: en esta etapa inicial, se recopilan nuevos datos de diversas fuentes de datos, como bases de datos, API o archivos. Esta ingestión de datos suele implicar datos brutos que pueden requerir un tratamiento previo para ser útiles.
     

  2. Preprocesamiento de datos: esta etapa implica la limpieza, transformación y preparación de los datos de entrada para el modelado. Los pasos comunes del preprocesamiento incluyen el manejo de valores faltantes, la codificación de variables categóricas, la escala de entidades numéricas y la división de datos en conjuntos de entrenamiento y pruebas.
     

  3. Ingeniería de funciones: la ingeniería de funciones es el proceso de crear nuevas funciones o seleccionar funciones relevantes a partir de los datos que pueden mejorar el poder predictivo del modelo. Este paso a menudo requiere creatividad y conocimiento del dominio.
     

  4. Selección del modelo: en esta etapa, se eligen los algoritmos de machine learning adecuados en función del tipo de problema (por ejemplo, clasificación, regresión), las características de los datos y los requisitos de rendimiento. También puede considerar el ajuste de hiperparámetros.
     

  5. Entrenamiento del modelo: el modelo o modelos seleccionados se entrenan en el conjunto de datos de entrenamiento utilizando el algoritmo o algoritmos elegidos. Esto implica aprender los patrones y relaciones subyacentes en los datos de entrenamiento. También se pueden utilizar modelos preentrenados, en lugar de entrenar un nuevo modelo.
     

  6. Evaluación del modelo: después del entrenamiento, el rendimiento del modelo se evalúa mediante un conjunto de datos de prueba independiente o mediante validación cruzada. Las métricas de evaluación comunes dependen del problema específico, pero pueden incluir exactitud, precisión, recuperación, puntuación F1, error cuadrático medio u otros.
     

  7. Implementación del modelo: una vez que se desarrolla y evalúa un modelo satisfactorio, se puede implementar en un entorno de producción donde puede hacer predicciones sobre datos nuevos e invisibles. La implementación puede implicar la creación de API y la integración con otros sistemas.
     

  8. Monitorización y mantenimiento: después de la implementación, es importante monitorizar continuamente el rendimiento del modelo y volver a entrenarlo según sea necesario para adaptarse a los patrones de datos cambiantes. Este paso garantiza que el modelo siga siendo preciso y fiable en un entorno real.

Los ciclos de vida del machine learning pueden variar en complejidad y pueden implicar pasos adicionales según el caso de uso, como la optimización de hiperparámetros, la validación cruzada y la selección de entidades. El objetivo de una canalización de machine learning es automatizar y estandarizar estos procesos, lo que facilita el desarrollo y el mantenimiento de modelos de machine learning para diversas aplicaciones.

Historia de las canalizaciones de machine learning

La historia de las canalizaciones de machine learning está estrechamente relacionada con la evolución del machine learning y la ciencia de datos como campos. Si bien el concepto de flujos de trabajo de procesamiento de datos es anterior al machine learning, la formalización y el uso generalizado de las canalizaciones de machine learning tal como las conocemos hoy en día se han desarrollado más recientemente.

Primeros flujos de trabajo de procesamiento de datos (anteriores a la década de 2000): antes de la adopción generalizada del machine learning, los flujos de trabajo de procesamiento de datos se utilizaban para tareas como la limpieza, la transformación y el análisis de datos. Estos flujos de trabajo solían ser manuales e implicaban la creación de secuencias de comandos o el uso de herramientas como el software de hojas de cálculo. Sin embargo, el machine learning no fue una parte central de estos procesos durante este período.

Aparición del machine learning (década de 2000): el machine learning ganó protagonismo a principios de la década de 2000 con los avances en algoritmos, la potencia computacional y la disponibilidad de grandes conjuntos de datos. Los investigadores y científicos de datos comenzaron a aplicar el machine learning a varios dominios, lo que llevó a una creciente necesidad de flujos de trabajo sistemáticos y automatizados.

Auge de la ciencia de datos (finales de la década de 2000 a principios de la década de 2010): el término "ciencia de datos" se popularizó como un campo multidisciplinario que combinaba estadística, análisis de datos y machine learning. Esta era vio la formalización de los flujos de trabajo de ciencia de datos, incluido el preprocesamiento de datos, la selección de modelos y la evaluación, que ahora son parte integral de las canalizaciones de machine learning.

Desarrollo de bibliotecas y herramientas de machine learning (década de 2010): la década de 2010 trajo el desarrollo de bibliotecas y herramientas de aprendizaje automático que facilitaron la creación de canalizaciones. Bibliotecas como scikit-learn (para Python) y caret (para R) proporcionaron API estandarizadas para crear y evaluar modelos de machine learning, lo que facilitó la construcción de canalizaciones.

Rise of AutoML (década de 2010): surgieron herramientas y plataformas de machine learning automatizado (AutoML) con el objetivo de automatizar el proceso de creación de canales de aprendizaje automático. Estas herramientas suelen automatizar tareas como el ajuste de hiperparámetros, la selección de funciones y la selección de modelos, lo que hace que el machine learning sea más accesible para los no expertos con visualizaciones y tutoriales. Apache Airflow es un ejemplo de plataforma de gestión de flujos de trabajo de código abierto que se puede utilizar para crear canalizaciones de datos.

Integración con DevOps (década de 2010): los canales de machine learning comenzaron a integrarse con las prácticas de DevOps para permitir la integración e implementación continuas (CI/CD) de modelos de aprendizaje automático. Esta integración enfatizó la necesidad de reproducibilidad, control de versiones y monitoreo en las canalizaciones de ML. Esta integración se conoce como operaciones de machine learning, o MLOps, y ayuda a los equipos de ciencia de datos a gestionar de forma eficaz la complejidad de gestionar la orquestación de ML. En una implementación en tiempo real, la canalización responde a una solicitud dentro de los milisegundos posteriores a la solicitud.

Soluciones relacionadas
IBM watsonx

Multiplique el poder de la IA con nuestra plataforma de IA y datos de última generación. IBM watsonx es una cartera de herramientas, aplicaciones y soluciones listas para el negocio, diseñadas para reducir los costos y los obstáculos de la adopción de la IA, al tiempo que optimiza los resultados y el uso responsable de la IA.

Explore watsonx

Soluciones de IA

Haga operativa la IA en toda su empresa para obtener beneficios de forma rápida y ética.  Nuestra amplia cartera de productos de IA y soluciones analíticas de calidad empresarial está diseñada para reducir los obstáculos en la adopción de la IA y establecer una adecuada base de datos de datos y, al mismo tiempo, optimizar los resultados y el uso responsable.

Explore las soluciones de IA de IBM

Servicios de consultoría de IA

Reimagine su forma de trabajar con la IA: nuestro equipo diverso y global de más de 20 000 expertos en IA puede ayudarle a diseñar y escalar la IA y la automatización de forma rápida y segura en toda su empresa, trabajando con nuestra propia tecnología IBM watsonx y un ecosistema abierto de socios para ofrecer cualquier modelo de IA, en cualquier nube, guiado por la ética y la confianza.

Explore servicios de consultoría de IA de IBM
Recursos del modelo de IA IBM Research: Inteligencia artificial

Explore nuestro centro centralizado para la investigación de IA, desde los principios básicos hasta la investigación emergente, pasando por los problemas y avances más destacados.

Kit de herramientas para diseñar canalizaciones de machine learning

Creamos el kit de herramientas AutoMLPipeline (AMLP), que facilita la creación y evaluación de estructuras complejas de canalizaciones de machine learning mediante expresiones simples.

MLOps y la evolución de la ciencia de datos

MLOps es la próxima evolución del análisis de datos y el deep learning. Avanza en la escalabilidad del ML en aplicaciones del mundo real mediante el uso de algoritmos para mejorar el rendimiento y la reproducibilidad del modelo.

Dé el siguiente paso

Entrene, valide, ajuste e implemente IA generativa, modelos fundacionales y capacidades de machine learning con IBM watsonx.ai, un estudio empresarial de próxima generación para constructores de IA. Cree aplicaciones de IA en menos tiempo y con menos datos.

Explore watsonx.ai Solicite una demostración en directo