¿Qué es un modelo de IA?

Empresaria sonriente y hombre de negocios trabajando en la oficina moderna

¿Qué es un modelo de IA?

Un modelo de IA es un programa que fue capacitado con un conjunto de datos para reconocer ciertos patrones o tomar ciertas decisiones sin más intervención humana. Los modelos de inteligencia artificial aplican diferentes algoritmos a las entradas de datos relevantes para lograr las tareas o resultados para los que fueron programados.

En pocas palabras, un modelo de IA se define por su capacidad para tomar decisiones o hacer predicciones de forma autónoma, en lugar de simular la inteligencia humana. Uno de los primeros modelos de IA que tuvieron éxito fueron los programas de ajedrez y damas inglesas a principios de los años 50: los modelos permitían a los programas realizar movimientos en respuesta directa al oponente humano, en lugar de seguir una serie de movimientos preestablecidos.

Los diferentes tipos de modelos de IA son más adecuados para tareas o dominios específicos, para los cuales su lógica particular de toma de decisiones es más útil o relevante. Los sistemas complejos a menudo emplean varios modelos simultáneamente, empleando técnicas de aprendizaje por conjuntos como bagging, boosting o stacking.

A medida que las herramientas de IA se vuelven cada vez más complejas y versátiles, requieren cantidades cada vez más desafiantes de datos y poder de cálculo para capacitarlas y ejecutarlas. En respuesta, los sistemas diseñados para ejecutar tareas específicas en un solo dominio están dando paso a modelos fundacionales, capacitados previamente en grandes conjuntos de datos sin etiquetar y capaces de una amplia gama de aplicaciones. Estos modelos fundacionales versátiles se pueden ajustar para tareas específicas.

Diseño 3D de pelotas rodando en una pista

Las últimas novedades e insights sobre IA

Descubra insights y noticias de expertos sobre IA, la nube y mucho más en el boletín semanal Think. 

Algoritmos frente a modelos

Aunque los dos términos a menudo se usan indistintamente en este contexto, no significan exactamente lo mismo.

  • Los algoritmos son procedimientos, a menudo descritos en lenguaje matemático o pseudocódigo, que se aplican a un conjunto de datos para lograr una determinada función o propósito.
  • Los modelos son el resultado de un algoritmo que se aplicó a un conjunto de datos.

En términos simples, se utiliza un modelo de IA para hacer predicciones o decisiones y un algoritmo es la lógica por la que opera ese modelo de IA.

AI Academy

Elija el modelo de IA adecuado para su caso de uso

Más grande no siempre es mejor cuando se trata de modelos de IA. Aprenda a encontrar la solución que mejor se adapte a las necesidades de su empresa. A continuación, obtenga la guía que le ayudará a pasar a la acción.

Modelos de IA y aprendizaje automático

Los modelos de IA pueden automatizar la toma de decisiones, pero solo los modelos capaces de aprendizaje automático (ML) son capaces de optimizar de manera autónoma su rendimiento a lo largo del tiempo.

Si bien todos los modelos de machine learning (ML) son IA, no toda la IA implica machine learning (ML). Los modelos de IA más elementales son una serie de declaraciones "si-entonces-si", con reglas programadas explícitamente por un científico de datos. Dichos modelos se denominan alternativamente motores de reglas, sistemas expertos, gráficos de conocimiento o IA simbólica.

Los modelos de aprendizaje automático emplean IA estadística en lugar de IA simbólica. Mientras que los modelos de IA basados en reglas deben programarse explícitamente, los modelos de ML se "capacitan" aplicando sus marcos matemáticos a un conjunto de datos de muestra cuyos puntos de datos sirven de base para las futuras predicciones del modelo en el mundo real.

Las técnicas de modelos de ML generalmente se pueden separar en tres categorías amplias: aprendizaje supervisado, aprendizaje no supervisado y aprendizaje por refuerzo.

  • Aprendizaje supervisado: también conocido como machine learning "clásico", el aprendizaje supervisado requiere que un experto humano etiquete los datos de entrenamiento. Un científico de datos que entrene un modelo de reconocimiento de imágenes para reconocer perros y gatos debe etiquetar las imágenes de muestra como "perro" o "gato", así como las características clave, como el tamaño, la forma o el pelaje, que informan esas etiquetas primarias. A continuación, el modelo puede utilizar estas etiquetas para inferir las características visuales típicas de "perro" y "gato" durante el entrenamiento.
  • Aprendizaje no supervisado: a diferencia de las técnicas de aprendizaje supervisado, el aprendizaje no supervisado no asume la existencia externa de respuestas "correctas" o "incorrectas" y, por lo tanto, no requiere etiquetado. Estos algoritmos detectan patrones inherentes en conjuntos de datos para agrupar puntos de datos en grupos e informar predicciones. Por ejemplo, las compañías de comercio electrónico como Amazon emplean modelos de asociación no supervisada para impulsar los motores de recomendación.
  • Aprendizaje por refuerzo: en el aprendizaje por refuerzo, un modelo aprende de forma holística mediante ensayo y error a través de la recompensa sistemática del resultado correcto (o la penalización del resultado incorrecto). Los modelos de refuerzo se emplean para informar las sugerencias de las redes sociales, el comercio algorítmico de acciones e incluso los automóvil autónomos.

Aprendizaje profundo es un subconjunto aún más evolucionado del aprendizaje no supervisado cuya estructura de redes neurales intenta imitar la del cerebro humano. Múltiples capas de nodos interconectados ingieren datos progresivamente, extraen características clave, identifican relaciones y refinan las decisiones en un proceso llamado propagación hacia adelante. Otro proceso llamado retropropagación aplica modelos que calculan errores y ajustan los pesos y sesgos del sistema en consecuencia. La mayoría de las aplicaciones avanzadas de IA, como los modelos de lenguaje grande (LLM) que potencian los chatbots modernos, utilizan aprendizaje profundo. Requiere tremendos recursos computacionales.

Modelos generativos frente a modelos discriminatorios

Una forma de diferenciar los modelos de aprendizaje automático es por su metodología fundamental: la mayoría se puede clasificar como generativa o discriminatoria. La distinción radica en cómo modelan los datos en un espacio determinado.

Modelos generativos

 Los algoritmos generativos, que suelen implicar un aprendizaje no supervisado, modelan la distribución de puntos de datos, con el objetivo de predecir la probabilidad conjunta P(x,y) de que un punto de datos determinado aparezca en un espacio determinado. Un modelo generativo de visión por computadora podría así identificar correlaciones como “cosas que parecen autos generalmente tienen cuatro ruedas” o “es poco probable que los ojos aparezcan por encima de las cejas”.

Estas predicciones pueden informar la generación de resultados que el modelo considera altamente probables. Por ejemplo, un modelo generativo capacitado con datos de texto puede potenciar las sugerencias ortográficas y de autocompletar; en el nivel más complejo, puede generar texto completamente nuevo. Esencialmente, cuando un LLM genera texto, calculó una alta probabilidad de que esa secuencia de palabras se ensamble en respuesta a la instrucción que se le dio.

Otros casos de uso comunes de los modelos generativos son la síntesis de imágenes, la composición musical, la transferencia de estilos y la traducción de idiomas.

Algunos ejemplos de modelos generativos son:

  • Modelos de difusión: los modelos de difusión agregan gradualmente ruido gaussiano a los datos de entrenamiento hasta que es irreconocible, luego aprenden un proceso inverso de "eliminación de ruido" que puede sintetizar la salida (generalmente imágenes) a partir de una semilla de ruido aleatorio.
  • Autocodificadores variacionales (VAEs): Los VAEs constan de un codificador que comprime los datos de entrada y un decodificador que aprende a revertir el proceso y mapear la distribución de datos probable.
  • Modelos transformadores: los modelos transformadores emplean técnicas matemáticas llamadas “atención” o “autoatención” para identificar cómo los diferentes elementos de una serie de datos se influyen entre sí. El "GPT" en Chat-GPT de OpenAI significa "Transformador generativo preentrenado".

Modelos discriminativos

Los algoritmos discriminatorios , que suelen implicar un aprendizaje monitorear, modelan los límites entre clases de datos (o "límites de decisión"), con el objetivo de predecir la probabilidad condicional P(y|x) de que un punto de datos dado (x) caiga en una clase determinada (y). Un modelo discriminatorio de visión artificial podría aprender la diferencia entre "automóvil" y "no automóvil" discerniendo algunas diferencias clave (como "si no tiene ruedas, no es un automóvil"), lo que le permite ignorar muchas correlaciones que un modelo generativo debe tener en cuenta. Por lo tanto, los modelos discriminatorios tienden a requerir menos potencia de cálculo.

Los modelos discriminatorios son, naturalmente, adecuados para tareas de clasificación como el análisis de opinión, pero tienen muchos usos. Por ejemplo, los modelos de Decision Trees y bosque aleatorio desglosan los complejos procesos de toma de decisiones en una serie de nodos, en los que cada "hoja" representa una posible decisión de clasificación.

Casos de uso

Aunque los modelos discriminativos o generativos suelen superar a los demás en determinados casos de uso en el mundo real, muchas tareas podrían realizar con cualquiera de los dos tipos de modelos. Por ejemplo, los modelos discriminatorios tienen muchos usos en el procesamiento de lenguaje natural (PLN) y a menudo superan a la IA generativa en tareas como la traducción automática (que implica la generación de texto traducido).

Del mismo modo, los modelos generativos se pueden emplear para la clasificación mediante el teorema de Bayes. En lugar de determinar de qué lado de un límite de decisión se encuentra una instancia (como lo haría un modelo discriminatorio), un modelo generativo podría determinar la probabilidad de que cada clase genere la instancia y elegir la que tenga mayor probabilidad.

Muchos sistemas de IA emplean ambas cosas a la vez. En una red adversarial generativa, por ejemplo, un modelo generativo crea datos de muestra y un modelo discriminatorio determina si esos datos son "reales" o "falsos". Los resultados del modelo discriminatorio se emplean para capacitar el modelo generativo hasta que el discriminador ya no puede discernir los datos generados "falsos".

Modelos de clasificación vs. modelos de regresión

Otra forma de categorizar los modelos es por la naturaleza de las tareas para las que se emplean. La mayoría de los algoritmos de modelos de IA tradicionales realizan clasificación o regresión. Algunos son adecuados para ambos, y la mayoría de los modelos fundacionales aprovechan ambos tipos de funciones.

Esta terminología puede, a veces, ser confusa. Por ejemplo, regresión logística es un modelo discriminatorio empleado para la clasificación.

Modelos de regresión

Los modelos de regresión predicen valores continuos (como el precio, la edad, el tamaño o el tiempo). Se emplean principalmente para determinar la relación entre una o varias variables independientes (x) y una variable dependiente (y): dada x, predecir el valor de y.

  • Los algoritmos, como la regresión, y las variantes relacionadas, como la regresión cuantil, son útiles para tareas como forecasting, el análisis de la elasticidad de los precios y la evaluación del riesgo.
  • Algoritmos como la regresión polinómica y la regresión de vectores de soporte (SVR) modelan relaciones complejas no lineales entre variables.
  • Ciertos modelos generativos, como la autorregresión y los autocodificadores variacionales, tienen en cuenta no sólo las relaciones correlativas entre valores pasados y futuros, sino también las relaciones causales relationships. Esto los hace particularmente útiles para forecasting escenarios meteorológicos y predecir eventos climáticos extremos.

Modelos de clasificación

Los modelos de clasificación predicen valores discretos . Como tales, se emplean principalmente para determinar una etiqueta adecuada o para categorizar (es decir, clasificar). Puede ser una clasificación binaria , como “sí o no”, “aceptar o rechazar”, o una clasificación multiclase (como un motor de recomendación que sugiere el Producto A, B, C o D).

Los algoritmos de clasificación encuentran una amplia gama de usos, desde la categorización sencilla hasta la automatización de la extracción de características en redes de aprendizaje profundo y avances en el cuidado de la salud como la clasificación de imágenes de diagnóstico en radiología.

Algunos ejemplos comunes son:

  • Naïve bayes: un algoritmo de aprendizaje supervisado generativo comúnmente empleado en el filtrado de spam y la clasificación de documentos.
  • Análisis discriminatorio lineal: se emplea para resolver la superposición contradictoria entre múltiples características que impactan la clasificación.
  • Regression logística: predice probabilidades continuas que luego se emplean como proxy para rangos de clasificación.

Entrenamiento de modelos de IA

El "aprendizaje" en el machine learning se logra capacitando modelos en conjuntos de datos de muestra. Las tendencias probabilísticas y las correlaciones discernidas en esos conjuntos de datos de muestra se aplican al rendimiento de la función del sistema.

En el aprendizaje supervisado y semisupervisado, los científicos de datos deben etiquetar cuidadosamente estos datos de entrenamiento para optimizar los resultados. Dada la extracción adecuada de características, el aprendizaje supervisado requiere una menor cantidad de datos de entrenamiento en general que el aprendizaje no supervisado.

Idealmente, los modelos de ML se capacitan con datos del mundo real. Esto, intuitivamente, garantiza mejor que el modelo refleje las circunstancias del mundo real que está diseñado para analizar o replicar. Pero confiar únicamente en datos del mundo real no siempre es posible, práctico u óptimo.

Aumento del tamaño y la complejidad del modelo

Cuantos más parámetros tenga un modelo, más datos se necesitarán para capacitarlo. A medida que los modelos de aprendizaje profundo crecen en tamaño, adquirir estos datos se vuelve cada vez más difícil.Esto es particularmente evidente en los LLM: tanto el GPT-3 de Open-AI como el BLOOM de código abierto tienen más de 175 mil millones de parámetros.

A pesar de su conveniencia, el uso de datos disponibles públicamente puede presentar problemas regulatorios, como cuándo deben anonimizarse los datos, así como problemas prácticos. Por ejemplo, los modelos de lenguaje capacitados en hilos de redes sociales pueden "aprender" hábitos o imprecisiones que no son ideales para el uso empresarial.

Los datos sintéticos ofrecen una solución alternativa: se emplea un conjunto más pequeño de datos reales para generar datos de entrenamiento que se parecen mucho a los originales y evitan las preocupaciones de privacidad.

Eliminar los prejuicios

Los modelos de machine learning (ML) capacitados con datos del mundo real absorberán inevitablemente los sesgos sociales que se reflejarán en esos datos. Si no se elimina, dicho sesgo perpetuará y exacerbará la inequidad en cualquier campo en el que se basen estos modelos, como la atención médica o la contratación. La investigación en ciencia de datos produjo algoritmos como FairIJ y técnicas de refinamiento de modelos como FairReprogram para abordar la inequidad inherente en los datos.

Sobreajuste y subajuste

El sobreajuste ocurre cuando un modelo de aprendizaje automático (ML) ajusta demasiado los datos de entrenamiento, lo que provoca que información irrelevante (o “ruido”) en el conjunto de datos de muestra influya en el rendimiento del modelo. Underfitting es su opuesto: entrenamiento inadecuado o inapropiado.

Modelos fundacionales

También llamados modelos base o modelos preentrenados, los modelos fundacionales son modelos de aprendizaje profundo preentrenados en conjuntos de datos a gran escala para aprender características y patrones generales. Sirven como puntos de partida para perfeccionarlos o adaptarlos para aplicaciones de IA más específicas.

En lugar de crear modelos desde cero, los desarrolladores pueden alterar las capas de las Neural Networks, ajustar los parámetros o adaptar las arquitecturas para satisfacer las necesidades específicas del dominio. Sumado a la amplitud y profundidad del conocimiento y la experiencia en un modelo grande y probado, esto ahorra tiempo y recursos significativos en el entrenamiento del modelo. Por lo tanto, los modelos fundacionales permiten un desarrollo y despliegue más rápidos de los sistemas de IA.

El ajuste fino de los modelos previamente capacitados para tareas especializadas dio paso recientemente a la técnica de ajuste de instrucciones, que introduce señales de front-end en el modelo para guiarlo hacia el tipo deseado de decisión o predicción.

Según David Cox, codirector del MIT-IBM Watson AI Lab, volver a desplegar un modelo de aprendizaje profundo capacitado (en lugar de capacitar o volver a capacitar un nuevo modelo) puede reducir el uso de computadoras y energía en más de 1000 veces, lo que ahorra costos significativos1.

Prueba de modelos de IA

Las pruebas sofisticadas son esenciales para la optimización, ya que mide si un modelo está bien entrenado para lograr su tarea prevista. Diferentes modelos y tareas se prestan a diferentes métricas y metodologías.

Validación cruzada

Probar el rendimiento de un modelo requiere un grupo de control para juzgarlo, ya que probar un modelo con los mismos datos con los que se capacitó puede provocar un sobreajuste. En la validación cruzada, se reservan o muestrean de nuevo partes de los datos de entrenamiento para crear ese grupo de control. Las variantes incluyen métodos no exhaustivos como k-fold, holdout y validación cruzada de Monte Carlo o métodos exhaustivos como validación cruzada de abandono.

Métricas del modelo de clasificación

Estas métricas comunes incorporan valores de resultado discretos como verdaderos positivos (TP), verdaderos negativos (TN), falsos positivos (FP) y falsos negativos (FN).

  • Laprecisión es la  relación entre las predicciones correctas y las predicciones totales: (TP+TN) / (TP+TN+FP+FN). No funciona bien para conjuntos de datos desequilibrados.
  • La precisión mide la frecuencia con la que las predicciones positivas son exactas: TP/(TP+FP).
  • Recuperación mide la frecuencia con la que se capturan con éxito los positivos: TP/(TP+FN).
  • El puntaje F1 es la media armónica de la precisión y la recuperación: (2×Precisión×Recuperación)/(Precisión+Recuperación). Equilibra las compensaciones entre la precisión (que fomenta los falsos negativos) y la recuperación (que fomenta los falsos positivos).
  • Una matriz de confusión representa visualmente la confianza (o confusión) de su algoritmo para cada clasificación potencial.

Métricas del modelo de regresión2

Como los algoritmos de regresión predicen valores continuos en lugar de valores discretos, se miden mediante métricas diferentes en las que “N” representa el número de observaciones. Las siguientes son métricas comunes que se utilizan para evaluar modelos de regression.

  • El error absoluto medio (MAE) mide la diferencia promedio entre los valorespredichos(y pred ) y los valores reales (yreal) en términos absolutos: ∑(ypred – yreal) / N.
  • El error cuadrático medio (MSE) eleva al cuadrado el error medio para penalizar agresivamente los valores atípicos: ∑(ypred -yactual)2 / N.
  • El error cuadrático medio (RSME) mide las desviaciones estándar en la misma unidad que los resultados: √ (∑(ypred – yreal)2 / N).
  • El error porcentual absoluto medio (MAPE) expresa el error promedio como porcentaje.

Despliegue de modelos de IA

Para desplegar y ejecutar un modelo de IA se necesita un dispositivo informático o servidor con suficiente potencia de procesamiento y capacidad de almacenamiento. Si no se planean adecuadamente los canales de IA y los recursos informáticos, los prototipos, por lo demás exitosos, pueden no superar la fase de prueba de concepto.

  • Los marcos de machine learning de código abierto como PyTorch, Tensorflow y Caffe2 pueden ejecutar modelos de machine learning (ML) con unas pocas líneas de código.
  • Las unidades centrales de procesamiento (CPU) son una fuente eficiente de potencia informática para aprender algoritmos que no requieren una computación paralela extensa.
  • Las unidades de procesamiento gráfico (GPU) tienen una mayor capacidad de procesamiento paralelo, lo que las hace más adecuadas para los enormes conjuntos de datos y la complejidad matemática de las neural networks de aprendizaje profundo.
Soluciones relacionadas
Modelos fundacionales

Explore la biblioteca de modelos fundacionales de IBM en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai
Soluciones de inteligencia artificial

Ponga la IA a trabajar en su negocio con la experiencia en IA líder en la industria y la cartera de soluciones de IBM a su lado.

Explore las soluciones de IA
Consultoría y servicios de IA

Reinvente los flujos de trabajo y las operaciones críticas añadiendo IA para maximizar las experiencias, la toma de decisiones en tiempo real y el valor empresarial.

Conozca los servicios de IA
Dé el siguiente paso

Explore la biblioteca de modelos fundacionales de IBM watsonx en la cartera de watsonx para escalar la IA generativa para su negocio con confianza.

Descubra watsonx.ai Explorar los modelos de IA de IBM Granite
Notas de pie de página

1 "What is prompt tuning?", IBM Research, 15 de febrero de 2023.

2 "Machine learning model evaluation", Geeksforgeeks.org, 2022.