Un modelo de IA es un programa que fue capacitado con un conjunto de datos para reconocer ciertos patrones o tomar ciertas decisiones sin más intervención humana. Los modelos de inteligencia artificial aplican diferentes algoritmos a las entradas de datos relevantes para lograr las tareas o resultados para los que fueron programados.
En pocas palabras, un modelo de IA se define por su capacidad para tomar decisiones o hacer predicciones de forma autónoma, en lugar de simular la inteligencia humana. Uno de los primeros modelos de IA que tuvieron éxito fueron los programas de ajedrez y damas inglesas a principios de los años 50: los modelos permitían a los programas realizar movimientos en respuesta directa al oponente humano, en lugar de seguir una serie de movimientos preestablecidos.
Los diferentes tipos de modelos de IA son más adecuados para tareas o dominios específicos, para los cuales su lógica particular de toma de decisiones es más útil o relevante. Los sistemas complejos a menudo emplean varios modelos simultáneamente, empleando técnicas de aprendizaje por conjuntos como bagging, boosting o stacking.
A medida que las herramientas de IA se vuelven cada vez más complejas y versátiles, requieren cantidades cada vez más desafiantes de datos y poder de cálculo para capacitarlas y ejecutarlas. En respuesta, los sistemas diseñados para ejecutar tareas específicas en un solo dominio están dando paso a modelos fundacionales, capacitados previamente en grandes conjuntos de datos sin etiquetar y capaces de una amplia gama de aplicaciones. Estos modelos fundacionales versátiles se pueden ajustar para tareas específicas.
Aunque los dos términos a menudo se usan indistintamente en este contexto, no significan exactamente lo mismo.
En términos simples, se utiliza un modelo de IA para hacer predicciones o decisiones y un algoritmo es la lógica por la que opera ese modelo de IA.
Los modelos de IA pueden automatizar la toma de decisiones, pero solo los modelos capaces de aprendizaje automático (ML) son capaces de optimizar de manera autónoma su rendimiento a lo largo del tiempo.
Si bien todos los modelos de machine learning (ML) son IA, no toda la IA implica machine learning (ML). Los modelos de IA más elementales son una serie de declaraciones "si-entonces-si", con reglas programadas explícitamente por un científico de datos. Dichos modelos se denominan alternativamente motores de reglas, sistemas expertos, gráficos de conocimiento o IA simbólica.
Los modelos de aprendizaje automático emplean IA estadística en lugar de IA simbólica. Mientras que los modelos de IA basados en reglas deben programarse explícitamente, los modelos de ML se "capacitan" aplicando sus marcos matemáticos a un conjunto de datos de muestra cuyos puntos de datos sirven de base para las futuras predicciones del modelo en el mundo real.
Las técnicas de modelos de ML generalmente se pueden separar en tres categorías amplias: aprendizaje supervisado, aprendizaje no supervisado y aprendizaje por refuerzo.
Aprendizaje profundo es un subconjunto aún más evolucionado del aprendizaje no supervisado cuya estructura de redes neurales intenta imitar la del cerebro humano. Múltiples capas de nodos interconectados ingieren datos progresivamente, extraen características clave, identifican relaciones y refinan las decisiones en un proceso llamado propagación hacia adelante. Otro proceso llamado retropropagación aplica modelos que calculan errores y ajustan los pesos y sesgos del sistema en consecuencia. La mayoría de las aplicaciones avanzadas de IA, como los modelos de lenguaje grande (LLM) que potencian los chatbots modernos, utilizan aprendizaje profundo. Requiere tremendos recursos computacionales.
Una forma de diferenciar los modelos de aprendizaje automático es por su metodología fundamental: la mayoría se puede clasificar como generativa o discriminatoria. La distinción radica en cómo modelan los datos en un espacio determinado.
Los algoritmos generativos, que suelen implicar un aprendizaje no supervisado, modelan la distribución de puntos de datos, con el objetivo de predecir la probabilidad conjunta P(x,y) de que un punto de datos determinado aparezca en un espacio determinado. Un modelo generativo de visión por computadora podría así identificar correlaciones como “cosas que parecen autos generalmente tienen cuatro ruedas” o “es poco probable que los ojos aparezcan por encima de las cejas”.
Estas predicciones pueden informar la generación de resultados que el modelo considera altamente probables. Por ejemplo, un modelo generativo capacitado con datos de texto puede potenciar las sugerencias ortográficas y de autocompletar; en el nivel más complejo, puede generar texto completamente nuevo. Esencialmente, cuando un LLM genera texto, calculó una alta probabilidad de que esa secuencia de palabras se ensamble en respuesta a la instrucción que se le dio.
Otros casos de uso comunes de los modelos generativos son la síntesis de imágenes, la composición musical, la transferencia de estilos y la traducción de idiomas.
Algunos ejemplos de modelos generativos son:
Los algoritmos discriminatorios , que suelen implicar un aprendizaje monitorear, modelan los límites entre clases de datos (o "límites de decisión"), con el objetivo de predecir la probabilidad condicional P(y|x) de que un punto de datos dado (x) caiga en una clase determinada (y). Un modelo discriminatorio de visión artificial podría aprender la diferencia entre "automóvil" y "no automóvil" discerniendo algunas diferencias clave (como "si no tiene ruedas, no es un automóvil"), lo que le permite ignorar muchas correlaciones que un modelo generativo debe tener en cuenta. Por lo tanto, los modelos discriminatorios tienden a requerir menos potencia de cálculo.
Los modelos discriminatorios son, naturalmente, adecuados para tareas de clasificación como el análisis de opinión, pero tienen muchos usos. Por ejemplo, los modelos de Decision Trees y bosque aleatorio desglosan los complejos procesos de toma de decisiones en una serie de nodos, en los que cada "hoja" representa una posible decisión de clasificación.
Aunque los modelos discriminativos o generativos suelen superar a los demás en determinados casos de uso en el mundo real, muchas tareas podrían realizar con cualquiera de los dos tipos de modelos. Por ejemplo, los modelos discriminatorios tienen muchos usos en el procesamiento de lenguaje natural (PLN) y a menudo superan a la IA generativa en tareas como la traducción automática (que implica la generación de texto traducido).
Del mismo modo, los modelos generativos se pueden emplear para la clasificación mediante el teorema de Bayes. En lugar de determinar de qué lado de un límite de decisión se encuentra una instancia (como lo haría un modelo discriminatorio), un modelo generativo podría determinar la probabilidad de que cada clase genere la instancia y elegir la que tenga mayor probabilidad.
Muchos sistemas de IA emplean ambas cosas a la vez. En una red adversarial generativa, por ejemplo, un modelo generativo crea datos de muestra y un modelo discriminatorio determina si esos datos son "reales" o "falsos". Los resultados del modelo discriminatorio se emplean para capacitar el modelo generativo hasta que el discriminador ya no puede discernir los datos generados "falsos".
Otra forma de categorizar los modelos es por la naturaleza de las tareas para las que se emplean. La mayoría de los algoritmos de modelos de IA tradicionales realizan clasificación o regresión. Algunos son adecuados para ambos, y la mayoría de los modelos fundacionales aprovechan ambos tipos de funciones.
Esta terminología puede, a veces, ser confusa. Por ejemplo, regresión logística es un modelo discriminatorio empleado para la clasificación.
Los modelos de regresión predicen valores continuos (como el precio, la edad, el tamaño o el tiempo). Se emplean principalmente para determinar la relación entre una o varias variables independientes (x) y una variable dependiente (y): dada x, predecir el valor de y.
Los modelos de clasificación predicen valores discretos . Como tales, se emplean principalmente para determinar una etiqueta adecuada o para categorizar (es decir, clasificar). Puede ser una clasificación binaria , como “sí o no”, “aceptar o rechazar”, o una clasificación multiclase (como un motor de recomendación que sugiere el Producto A, B, C o D).
Los algoritmos de clasificación encuentran una amplia gama de usos, desde la categorización sencilla hasta la automatización de la extracción de características en redes de aprendizaje profundo y avances en el cuidado de la salud como la clasificación de imágenes de diagnóstico en radiología.
Algunos ejemplos comunes son:
El "aprendizaje" en el machine learning se logra capacitando modelos en conjuntos de datos de muestra. Las tendencias probabilísticas y las correlaciones discernidas en esos conjuntos de datos de muestra se aplican al rendimiento de la función del sistema.
En el aprendizaje supervisado y semisupervisado, los científicos de datos deben etiquetar cuidadosamente estos datos de entrenamiento para optimizar los resultados. Dada la extracción adecuada de características, el aprendizaje supervisado requiere una menor cantidad de datos de entrenamiento en general que el aprendizaje no supervisado.
Idealmente, los modelos de ML se capacitan con datos del mundo real. Esto, intuitivamente, garantiza mejor que el modelo refleje las circunstancias del mundo real que está diseñado para analizar o replicar. Pero confiar únicamente en datos del mundo real no siempre es posible, práctico u óptimo.
Cuantos más parámetros tenga un modelo, más datos se necesitarán para capacitarlo. A medida que los modelos de aprendizaje profundo crecen en tamaño, adquirir estos datos se vuelve cada vez más difícil.Esto es particularmente evidente en los LLM: tanto el GPT-3 de Open-AI como el BLOOM de código abierto tienen más de 175 mil millones de parámetros.
A pesar de su conveniencia, el uso de datos disponibles públicamente puede presentar problemas regulatorios, como cuándo deben anonimizarse los datos, así como problemas prácticos. Por ejemplo, los modelos de lenguaje capacitados en hilos de redes sociales pueden "aprender" hábitos o imprecisiones que no son ideales para el uso empresarial.
Los datos sintéticos ofrecen una solución alternativa: se emplea un conjunto más pequeño de datos reales para generar datos de entrenamiento que se parecen mucho a los originales y evitan las preocupaciones de privacidad.
Los modelos de machine learning (ML) capacitados con datos del mundo real absorberán inevitablemente los sesgos sociales que se reflejarán en esos datos. Si no se elimina, dicho sesgo perpetuará y exacerbará la inequidad en cualquier campo en el que se basen estos modelos, como la atención médica o la contratación. La investigación en ciencia de datos produjo algoritmos como FairIJ y técnicas de refinamiento de modelos como FairReprogram para abordar la inequidad inherente en los datos.
El sobreajuste ocurre cuando un modelo de aprendizaje automático (ML) ajusta demasiado los datos de entrenamiento, lo que provoca que información irrelevante (o “ruido”) en el conjunto de datos de muestra influya en el rendimiento del modelo. Underfitting es su opuesto: entrenamiento inadecuado o inapropiado.
También llamados modelos base o modelos preentrenados, los modelos fundacionales son modelos de aprendizaje profundo preentrenados en conjuntos de datos a gran escala para aprender características y patrones generales. Sirven como puntos de partida para perfeccionarlos o adaptarlos para aplicaciones de IA más específicas.
En lugar de crear modelos desde cero, los desarrolladores pueden alterar las capas de las Neural Networks, ajustar los parámetros o adaptar las arquitecturas para satisfacer las necesidades específicas del dominio. Sumado a la amplitud y profundidad del conocimiento y la experiencia en un modelo grande y probado, esto ahorra tiempo y recursos significativos en el entrenamiento del modelo. Por lo tanto, los modelos fundacionales permiten un desarrollo y despliegue más rápidos de los sistemas de IA.
El ajuste fino de los modelos previamente capacitados para tareas especializadas dio paso recientemente a la técnica de ajuste de instrucciones, que introduce señales de front-end en el modelo para guiarlo hacia el tipo deseado de decisión o predicción.
Según David Cox, codirector del MIT-IBM Watson AI Lab, volver a desplegar un modelo de aprendizaje profundo capacitado (en lugar de capacitar o volver a capacitar un nuevo modelo) puede reducir el uso de computadoras y energía en más de 1000 veces, lo que ahorra costos significativos1.
Las pruebas sofisticadas son esenciales para la optimización, ya que mide si un modelo está bien entrenado para lograr su tarea prevista. Diferentes modelos y tareas se prestan a diferentes métricas y metodologías.
Probar el rendimiento de un modelo requiere un grupo de control para juzgarlo, ya que probar un modelo con los mismos datos con los que se capacitó puede provocar un sobreajuste. En la validación cruzada, se reservan o muestrean de nuevo partes de los datos de entrenamiento para crear ese grupo de control. Las variantes incluyen métodos no exhaustivos como k-fold, holdout y validación cruzada de Monte Carlo o métodos exhaustivos como validación cruzada de abandono.
Estas métricas comunes incorporan valores de resultado discretos como verdaderos positivos (TP), verdaderos negativos (TN), falsos positivos (FP) y falsos negativos (FN).
Como los algoritmos de regresión predicen valores continuos en lugar de valores discretos, se miden mediante métricas diferentes en las que “N” representa el número de observaciones. Las siguientes son métricas comunes que se utilizan para evaluar modelos de regression.
Para desplegar y ejecutar un modelo de IA se necesita un dispositivo informático o servidor con suficiente potencia de procesamiento y capacidad de almacenamiento. Si no se planean adecuadamente los canales de IA y los recursos informáticos, los prototipos, por lo demás exitosos, pueden no superar la fase de prueba de concepto.
Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.
Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.
Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.
1 "What is prompt tuning?", IBM Research, 15 de febrero de 2023.
2 "Machine learning model evaluation", Geeksforgeeks.org, 2022.