El machine learning automatizado (AutoML) se ha convertido en un tema de tendencia en la industria y en el ámbito de investigación académica de la inteligencia artificial (IA) en los últimos años. AutoML se muestra prometedor al proporcionar soluciones para IA en industrias reguladas para lograr resultados explicables y repetibles. AutoML permite un mayor acceso al desarrollo de IA para aquellos que no tienen los conocimientos teóricos que hoy en día se necesita para un puesto en la ciencia de datos.
Cada paso en la actual línea de trabajo de la ciencia de datos prototípica, como el preprocesamiento de datos, la ingeniería de características y la optimización de hiperparámetros, debe ser realizado manualmente por expertos en machine learning. En comparación, la adopción de AutoML permite un proceso de desarrollo más simple mediante el cual unas pocas líneas de código pueden generar el código necesario para comenzar a desarrollar un modelo de machine learning.
AutoML se puede considerar, independientemente de si se están creando clasificadores o entrenando regresiones, como un concepto de búsqueda generalizado, con algoritmos de búsqueda especializados para encontrar las soluciones óptimas para cada componente de la línea de trabajo de machine learning. Al desarrollar un sistema que permite la automatización de solo tres elementos clave de automatización: ingeniería de funciones, optimización de hiperparámetros y búsqueda de arquitectura neuronal, AutoML promete un futuro en el que el machine learning democratizado es una realidad.
Entrene, valide, perfeccione e implemente modelos básicos y de machine learning con facilidad
En una línea de trabajo de ciencia de datos, hay muchos pasos que un equipo de ciencia de datos debe seguir para crear un modelo predictivo. Incluso los equipos experimentados de científicos de datos e ingenieros de ML pueden beneficiarse de la mayor velocidad y transparencia que ofrece AutoML. Un científico de datos tiene que comenzar con una hipótesis, recopilar el conjunto de datos correcto, probar la visualización de datos, diseñar características adicionales para aprovechar toda la señal disponible, entrenar un modelo con hiperparámetros (enlace externo a ibm.com), y para el deep learning de vanguardia, tienen que diseñar la arquitectura óptima para una red neuronal profunda, con suerte, en una GPU, si pueden acceder a una.
Una característica de datos es parte de los datos de entrada a un modelo de machine learning, y la ingeniería de características se refiere al proceso transformador en el que un científico de datos obtiene nueva información de los datos existentes. La ingeniería de características es uno de los procesos clave de valor agregado en un flujo de trabajo de ML, y las buenas características son la diferencia entre un modelo con un rendimiento aceptable y un modelo con un rendimiento brillante. Estas transformaciones matemáticas de datos sin procesar se leen en el modelo y constituyen la base del proceso de machine learning. La ingeniería de características automatizada (PDF 1.7 MB) (Automated Feature Engineering o AFE) (enlace externo a IBM) es el proceso de explorar el espacio de las combinaciones viables de características de una manera mecanicista, en lugar de manual.
La ingeniería de características manual es una alquimia moderna que tiene un gran costo en términos de tiempo: la creación de una sola característica a menudo puede llevar horas, y la cantidad de características necesarias para una puntuación de precisión mínima, sin contar un estándar de precisión a nivel de producción, podría ser cientos. Al automatizar la exploración de un espacio de características, AutoML reduce el tiempo que un equipo de ciencia de datos pasa en esta etapa de días a minutos.
Reducir las horas de intervención manual de un científico de datos no es el único beneficio de la ingeniería de características automatizada. Las características generadas a menudo son claramente interpretables. En industrias estrictamente reguladas como el cuidado de la salud o las finanzas, esa explicabilidad es importante porque reduce las barreras para adoptar la IA a través de la interpretabilidad. Además, un científico o analista de datos se beneficia de la claridad de estas características porque hacen que los modelos de alta calidad sean más atractivos y prácticos. Las características generadas automáticamente también tienen el potencial de encontrar nuevos KPI para que una organización los controle y adopte medidas. Una vez que un científico de datos ha completado la ingeniería de características, debe optimizar sus modelos con la selección de características estratégicas.
Los hiperparámetros son parte de los algoritmos de machine learning que se entienden mejor por analogía como palancas para ajustar el rendimiento del modelo, aunque a menudo los ajustes incrementales tienen un impacto enorme. En el modelado de ciencia de datos a pequeña escala, los hiperparámetros se pueden configurar fácilmente a mano y optimizar mediante prueba y error.
Para las aplicaciones de deep learning, la cantidad de hiperparámetros crece exponencialmente, lo que coloca su optimización más allá de las capacidades de un equipo de ciencia de datos para lograrlo de manera manual y oportuna. La optimización automatizada de hiperparámetros (Automated hyperparameter optimization o HPO) (enlace externo a ibm.com) libera a los equipos de la intensa responsabilidad de explorar y optimizar todo el espacio de eventos buscando hiperparámetros y, en cambio, permite a los equipos iterar y experimentar con características y modelos.
Otro punto fuerte de la automatización del proceso de machine learning es que ahora los científicos de datos pueden centrarse en el por qué de la creación de modelos en lugar del cómo.Teniendo en cuenta las cantidades extremadamente grandes de datos disponibles para muchas empresas y la abrumadora cantidad de preguntas que se pueden responder con estos datos, un equipo de analítica puede prestar atención a qué aspectos del modelo deben optimizar, como el clásico problema de minimizar los falsos negativos en las pruebas médicas.
El proceso más complejo y lento de deep learning es la creación de la arquitectura neuronal. Los equipos de ciencia de datos dedican mucho tiempo a seleccionar las capas adecuadas y las tasas de aprendizaje que, al final, suelen ser solo para los pesos del modelo, como en muchos modelos de lenguaje. La búsqueda de arquitectura neuronal (NAS) (enlace externo a IBM) se ha descrito como "utilizar redes neuronales para diseñar redes neuronales" y es una de las áreas más obvias de machine learning para beneficiarse de la automatización.
Las búsquedas de NAS comienzan con la elección de qué arquitecturas probar. El resultado de NAS está determinado por la métrica con la que se evalúa cada arquitectura. Hay varios algoritmos comunes para usar en una búsqueda de arquitectura neuronal. Si el número potencial de arquitecturas es pequeño, las opciones de prueba se pueden realizar al azar. Los enfoques basados en gradientes, en los que el espacio de búsqueda discreto se convierte en una representación continua, han demostrado ser muy eficaces. Los equipos de ciencia de datos también pueden probar algoritmos evolutivos en los que las arquitecturas se evalúan al azar y los cambios se aplican lentamente, propagando las arquitecturas secundarias que tienen más éxito mientras se eliminan las que no lo tienen.
Las búsquedas de arquitectura neuronal son uno de los elementos clave de AutoML que prometen democratizar la IA. Sin embargo, estas búsquedas suelen tener una huella de carbono muy alta. Aún no se ha realizado una evaluación de estas compensaciones y la optimización del costo ecológico es un área de estudio continua de los enfoques de NAS.
Ciencia de datos
Machine learning
AutoAI
El machine learning automatizado (AML) suena como una panacea del solucionismo técnico que una organización puede usar para reemplazar a los costosos científicos de datos, pero en realidad su uso requiere estrategias inteligentes por parte de la empresa. Los científicos de datos cumplen funciones esenciales para diseñar experimentos, traducir resultados en resultados comerciales y mantener el ciclo de vida completo de sus modelos de machine learning. Entonces, ¿cómo pueden los equipos multifuncionales hacer uso de AutoML para optimizar el uso del tiempo y acelerar la obtención de valor de sus modelos?
El flujo de trabajo óptimo para incluir las API de AutoML es aquel que lo usa para paralelizar cargas de trabajo y acortar el tiempo dedicado a tareas manuales laboriosas. En lugar de pasar días ajustando los hiperparámetros, un científico de datos podría automatizar este proceso en múltiples tipos de modelos al mismo tiempo y luego probar cuál fue el más eficiente.
Además, existen características de AutoML que permiten a los miembros del equipo con diferentes niveles de habilidad contribuir ahora a la línea de trabajo de la ciencia de datos. Un analista de datos sin experiencia en Python podría aprovechar un conjunto de herramientas, como AutoAI en Watson Studio, para entrenar un modelo predictivo utilizando los datos que pueden extraer por sí mismos mediante consultas. Con AutoML, un analista de datos ahora puede preprocesar datos, crear una línea de trabajo de machine learning y producir un modelo completamente entrenado que puede usar para validar sus propias hipótesis sin requerir la atención de un equipo completo de ciencia de datos.
Los investigadores y desarrolladores de IBM contribuyen al crecimiento y desarrollo de AutoML. El desarrollo continuo de productos con AutoAI en IBM Watson y el trabajo de los Investigadores de IBM en Lale (enlace externo a IBM), una biblioteca de ciencia de datos automatizada de código abierto, son solo algunas de las formas en que IBM ayuda a crear la última generación de enfoques de IA. Si bien Lale es un proyecto de código abierto, en realidad es fundamental para muchas de las funcionalidades de AutoAI.
Para los equipos de ciencia de datos que trabajan con Python como el núcleo de su solución de machine learning, Lale ofrece una biblioteca semiautomatizada que se integra a la perfección en líneas de trabajo scikit-learn (enlace externo a IBM), diferente a auto-sklearn (enlace externo a IBM), o una biblioteca como TPOT (enlace externo a IBM). Lale va más allá de scikit-learn con automatización, evaluaciones de corrección e interoperabilidad. Si bien se basa en el paradigma scikit-learn, tiene un número creciente de transformadores y operadores de otras bibliotecas de Python y de bibliotecas en lenguajes como Java y R.
Cree y entrene rápidamente modelos predictivos de alta calidad. Simplifique la gestión del ciclo de vida de la IA.
Cree y escale la IA confiable en cualquier nube. Automatice el ciclo de vida de la IA para ModelOps.